【开源】ByeType，听得懂你说话、会思考的语音输入法。基于多模态LLM，所有规则你来定，可以和豆包、微信语音输入说拜拜了

编辑部 2026-05-09T13:08:36.899350 2017 阅读 tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社...

【开源】ByeType，听得懂你说话、会思考的语音输入法。基于多模态LLM，所有规则你来定，可以和豆包、微信语音输入说拜拜了

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

github.com

GitHub - devonmochi/byetype: ByeType 是一个 Markdown 驱动的 AI...

ByeType 是一个 Markdown 驱动的 AI 语音输入工具，用多模态大模型直接处理原始音频（使用自己的APIKEY），编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略，人名、术语、口水词、数字格式一次转录到位，减少二次修改。支持 macOS、Windows 和 iOS。

我自己平时用豆包、微信、讯飞这些语音输入法，最大的痛点就是它们本质上都是机械转录——听到什么字就打什么字。中英混合会翻车、人名术语靠猜、「嗯」「那个」全部照搬，想要的符号格式只能转完自己手动排版。改半天稿子，比直接打字还慢。

所以我做了 ByeType，想换一条路：让多模态大模型直接听原始音频，先理解我在说什么，再按我自己定的规则输出。 规则全部写在几个 Markdown 文件里，人名、术语、口水词、数字格式怎么处理，我说了算。一个会思考的输入法，和一个只会照搬的录音机，差别就在这。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

开源 ByeType 听得懂说话思考使用一个帖子

【开源】ByeType，听得懂你说话、会思考的语音输入法。基于多模态LLM，所有规则你来定，可以和豆包、微信语音输入说拜拜了

GitHub - devonmochi/byetype: ByeType 是一个 Markdown 驱动的 AI...

索尼 CFO 陶琳称 Bungie 收益未达预期，《失落星船：马拉松》反馈良好将持续支持

[问与答] 买猫卖猫问题，老婆到底赚了多少钱？

相关推荐