求用于交互式转写长时访谈记录的语音转文字STT/ASR方案

STT/ASR在站内已经看到很多推荐了,不过很多是API或者实时服务。 我的需求是: 转录时长在1-3小时不等的中文(夹杂英文单词)访谈录音。 不要求实时转录。 区分说话人(通常是2个)。 - 需要一个交互UI,能够实现: 关联切分的录音到单句。点击可以播放对应单句的语音,便于修改文字。(出于研究目...
求用于交互式转写长时访谈记录的语音转文字STT/ASR方案
用于交互式转写长时访谈记录的语音转文字STT/ASR方案

STT/ASR在站内已经看到很多推荐了,不过很多是API或者实时服务。

我的需求是:

  • 转录时长在1-3小时不等的中文(夹杂英文单词)访谈录音。
  • 不要求实时转录。
  • 区分说话人(通常是2个)。
    - 需要一个交互UI,能够实现:
    • 关联切分的录音到单句。点击可以播放对应单句的语音,便于修改文字。(出于研究目的,不能完全交给机器转录)
    • 能够添加术语、热词表。
    • 简单的规整,如删除语病、语气词等。

去年曾经用过科大讯飞的方案,倒是符合要求,但当时发现讯飞的转录效果不如Gemini 2.5 Pro的多模态转录。虽然后者不方便单句修改,但也凑合用了。现在又要处理一些录音,不知道有没有熟悉这方面的佬推荐一下

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文