【开源】ByeType,听得懂你说话、会思考的语音输入法。基于多模态LLM,所有规则你来定,可以和豆包、微信语音输入说拜拜了

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社...
【开源】ByeType,听得懂你说话、会思考的语音输入法。基于多模态LLM,所有规则你来定,可以和豆包、微信语音输入说拜拜了
【开源】ByeType,听得懂你说话、会思考的语音输入法。基于多模态LLM,所有规则你来定,可以和豆包、微信语音输入说拜拜了
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


github.com

GitHub - devonmochi/byetype: ByeType 是一个 Markdown 驱动的 AI...

ByeType 是一个 Markdown 驱动的 AI 语音输入工具,用多模态大模型直接处理原始音频(使用自己的APIKEY),编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略,人名、术语、口水词、数字格式一次转录到位,减少二次修改。支持 macOS、Windows 和 iOS。

我自己平时用豆包、微信、讯飞这些语音输入法,最大的痛点就是它们本质上都是机械转录——听到什么字就打什么字。中英混合会翻车、人名术语靠猜、「嗯」「那个」全部照搬,想要的符号格式只能转完自己手动排版。改半天稿子,比直接打字还慢。

所以我做了 ByeType,想换一条路:让多模态大模型直接听原始音频,先理解我在说什么,再按我自己定的规则输出。 规则全部写在几个 Markdown 文件里,人名、术语、口水词、数字格式怎么处理,我说了算。一个会思考的输入法,和一个只会照搬的录音机,差别就在这。

image

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文