Voice2voice 人与AI通话解密

今天在用Grok搜有意思的内容的时候,偶然发现 Supertonic这个开源项目,一个超快速、本地运行的多语言文本转语音(TTS)系统(但是不支持中文,中文的话可以找 Mimo-TTS系列模型)。 核心特点: 完全本地推理 — 基于 ONNX Runtime,无需云端、无 API 调用、无隐私顾虑 ...
Voice2voice 人与AI通话解密
Voice2voice 人与AI通话解密

今天在用Grok搜有意思的内容的时候,偶然发现 Supertonic这个开源项目,一个超快速、本地运行的多语言文本转语音(TTS)系统(但是不支持中文,中文的话可以找 Mimo-TTS系列模型)。

核心特点:

然后就引起了我的好奇心,平时我们在和Gemini,

豆包这些AI语音交流的时候,中间发生了什么?

image

最新的技术方案还有端到端语音模型(如 GPT-4o realtime、Gemini Live),跳过中间文本环节,直接 spech-to-speech,延迟更低、能保留语气情感但是部署成本高。

所以让Codex手搓了一个Voice/Text to Voice的一个MVP项目。

具体实现:用户(Win + H)语音转文字------>LLM的输入(支持/v1/chat/completions协议)------>LLM输出文本------>Supersonic输出语音。当然其中应该涉及到延迟, 打断 ,容错,信息丢失这些内容。今天一天暂时考虑不到这么多。

具体的成果就是可以在端侧,这里以Windows为例,实现简单的人与AI的语音对话。

image

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文