STT/ASR在站内已经看到很多推荐了,不过很多是API或者实时服务。
我的需求是:
- 转录时长在1-3小时不等的中文(夹杂英文单词)访谈录音。
- 不要求实时转录。
- 区分说话人(通常是2个)。
- 需要一个交互UI,能够实现:- 关联切分的录音到单句。点击可以播放对应单句的语音,便于修改文字。(出于研究目的,不能完全交给机器转录)
- 能够添加术语、热词表。
- 简单的规整,如删除语病、语气词等。
去年曾经用过科大讯飞的方案,倒是符合要求,但当时发现讯飞的转录效果不如Gemini 2.5 Pro的多模态转录。虽然后者不方便单句修改,但也凑合用了。现在又要处理一些录音,不知道有没有熟悉这方面的佬推荐一下
2 个帖子 - 2 位参与者