【十倍速写作系列11】短语音输入法(如豆包) vs 长语音输入法(如SuperWhisper),该分道扬镳了

我从25年5月使用语音笔记到现在快一年了 在L站写了十倍速写作系列11篇文章 6月一个月录音80万字 现在每月录音20万字左右 用过大部分的语音输入法:豆包,Spokenly,VoiceInk,SuperWhisper,LazyTyper,Typeless,WhisperFlow,智谱AutoGLM...
【十倍速写作系列11】短语音输入法(如豆包) vs 长语音输入法(如SuperWhisper),该分道扬镳了
【十倍速写作系列11】短语音输入法(如豆包) vs 长语音输入法(如SuperWhisper),该分道扬镳了

我从25年5月使用语音笔记到现在快一年了
在L站写了十倍写作系列11篇文章
6月一个月录音80万字
现在每月录音20万字左右
用过大部分的语音输入法:豆包,Spokenly,VoiceInk,SuperWhisper,LazyTyper,Typeless,WhisperFlow,智谱AutoGLM,CleverType等
用过大部分的语音笔记:VoiceNotes,闪电说,Tana语音等
这是根据2026新语音输入法,和老语音输入法的新功能,最新的实践感想
本文优缺点,都是针对长笔记等长语音输入场景

语音输入法的两种分类

语音输入法分为两种,一种是用于聊天的短语音输入法(每次录几秒到几十秒),另一种是用于记录笔记的长语音输入法(每次录几分钟到几十分钟)。
这是两种完全不同的场景,对于大量使用笔记等长语音的用户,最好分别使用不同的输入法
抛开应用场景比性能,就是耍流氓

长短语音通用要求

免费或合理价格
去除口头禅
多端通用:最好iOS/安卓/Mac/Win端都有,且移植缩水不严重;尤其是收费软件,多端通用可以降低一半成本,同步设置,统一体验,
最好有键盘:拼音键盘 > 英文键盘 > 只有回车换行 > 没有任何按键

短语音输入法的要求

用途:聊天,搜索,大模型提问等短文场景
速度快:几秒上屏
实时上屏:不必等字都说完
历史记录不重要:数据丢失的问题在聊天场景中不是核心需求,丢了重说一遍即可。
例子:最好的是豆包输入法

长语音输入法的要求

用途:写笔记,写邮件,vibe coding等长文场景
润色模型,自定义提示词:长语音输入法必须具备大模型后期处理能力,对格式化输出和接口兼容性要求非常高。
意图表达:长文更注重意图表达,而不仅仅是逐字记录。
速度:要求相对较低,因为用户本来就是边录音边思考,识别需要十几秒到二十几秒,这段时间刚好可以用来整理后续思路。
历史记录:不能丢失数据和录音。
实时上屏不重要
vibe coding场景的特殊要求
对准确性要求极高:不宜出现错字,对专有词汇的识别要求很高。
对自定义提示词要求高:例如Claude Code对换行兼容性差,超过两行就看不见,要用提示词要求禁止换行
对自定义词典和词语替换功能的要求高:一些编程专有词汇,自定义词汇,AI容易识别错

语音笔记

缺点:语音笔记是笔记软件,不是输入法,只能在笔记软件里使用,不能用于聊天,其他笔记软件,Claude Code等,通用性差
例子:VoiceNotes,闪电说,Tana语音
本文主要讨论长语音输入法,不讨论语音笔记

Super Whisper⁵

作为长语音输入法5分
作为短语音输入法3分:速度慢

优点

识别率高:使用ElevenLabs的识别率是所有识别软件中最高的
大模型:可以选择Sonnet-4.6或GPT-5.2。
大模型选项相对丰富,支持自定义填写API,
但不支持推理模式,不过推理模式速度较慢,实用性也不高,所以这个缺点影响不大。
可以通过自定义提升,模拟Typeless的“意图输入法”
多端:支持Mac、Windows和iOS,iOS版和Windows版有所缩水,早期缩水严重,现在iOS和Mac版可以用elevenlabs-scribe+sonnet4.6,win
没有十分钟的时长限制:可以一直录
价格相对便宜:月费包含了大模型和ElevenLabs语音识别,不需要额外付费。
可以申请教育优惠6折,或者注册AppStore尼日利亚区ID,直接买就是6折
终身授权售价为$250。也可以叠加教育优惠$150,在国外软件里算是很低,但是尼区终身没有优惠

缺点

速度方面不算快:速度主要取决于模型,ElevenLabs加上后续大模型处理,较长的录音合计可能需要二十秒,短的也要十秒,即使只有一两句话也需要五六秒。
语音识别选项较少:只支持Whisper和ElevenLabs,不支持其他选项。
Win版缩水严重:没有elevenlabs-scribe,只能用Whisper

Spokenly⁴

作为长语音输入法4分
作为短语音输入法3分:速度慢

优点

自定义提示词:模拟Typeless的“意图输入法”
iOS/Mac都可以自定义API:其他大部分语音输入法不能自定义apikey

缺点

没有Windows版本:作者也没有推出Windows版的计划。
自定义apikey也未必比superwhisper的$5更便宜
会员方案:$10/月,不包含润色模型费用,没有学生/尼区/印区优惠,如果购买会员后再叠加润色费用,总价会达到SuperWhisper的2-3倍
自备Apikey方案:买elevenlabs$5会员=闲鱼¥20=$3,包含约15小时录音,录音量大的用户很可能不够。
无论是否购买会员,Spokenly都不包含润色功能的模型费用,用高级模型需要额外花钱,办法:免费蹭试用例如AIStudio gemini-3.1-flash-lite apikey(每天500次)

Typeless³

作为长语音输入法3分,有10分钟限制,导致总丢录音
作为短语音输入法5分,速度快
算是长短最均衡的,但长短都不是第一
评测详见:【十倍速写作系列10】Typeless:不是另一个语音输入法,而是第一个意图输入法

优点

速度快:一般5s上屏,比其他带润色的输入法快一倍以上
iOS版有选区编辑功能:其他输入法都没有
意图输入法:不是逐字记录,而是识别用户意图,理论上所有可以自定义提示词的输入法都可以模拟这种效果

缺点

有十分钟的录音时长限制:录音到达十分钟时没有任何提示,系统会直接截断,录音时很少有人会一直盯着屏幕,所以很可能说了二十分钟,后面十分钟的内容根本没有被录下来。
输出格式无法自定义:Typeless有自己固定的格式,例如使用"1.“或”(a)",首格缩进,这类标注方式,如果不喜欢这些格式,也无法更改。
末尾没有换行:连续录制两次或三次后,文字会直接粘连在一起,缺少段落分隔。
语音识别能力有限:Typeless 很可能使用的是 Whisper 模型,原生识别率肯定不如 ElevenLabs。
它似乎借助了大模型通过上下文来推断字词,因此表现出来的识别率看起来还不错,但猜测的成分比较重,有时候会瞎猜
价格偏贵:且必须按年付费。
月付价格高达$30,年付为$144,教育优惠,可以打对折,降至$72,尼区印区没有价格优惠

豆包²(作为长语音输入法)

作为长语音输入法2分:没历史记录,很容易丢录音
作为短语音输入法5分:我聊天/搜索/AI提问天天用
最好豆包+superwhisper或Typeless分场景使用

优点

免费,实时上屏,识别率高,速度快,有拼音键盘

缺点

口头禅去不彻底
没有格式:分行,分段,插空行
没有润色:不能自定义提示词
丢录音:长录音录到一半可能因为进程被杀或跳转到其他对话,导致录音和文稿全部丢失,这种情况非常普遍。
在GPT或Gemini的APP里录音,内容最终是要成稿的,但口头禅多、不换行等问题都不适合直接用于成稿。
没有Win版

Gemini或ChatGPT自带的语音录入功能(作为长语音输入法)

做短语音输入法2分,没有豆包好用,而且仅能在ChatGPT/Gemini App里用,不能再其他App里用
做长语音输入法0分,完全没法用

缺点

识别率低:明显低于豆包,elevenlabs-scribe,提问词都是错的,AI有时候能发现错别字,有时候就被带偏了
不适合长录音:Gemini只要停顿就会自动上屏,ChatGPT只能录一次停了就不能再录

10 个帖子 - 8 位参与者

阅读完整话题

来源: linux.do查看原文