Voice2voice 人与AI通话解密

编辑部 2026-05-24T21:27:31.543104 3961 阅读 tech

今天在用Grok搜有意思的内容的时候，偶然发现 Supertonic这个开源项目，一个超快速、本地运行的多语言文本转语音（TTS）系统（但是不支持中文，中文的话可以找 Mimo-TTS系列模型）。核心特点：完全本地推理 — 基于 ONNX Runtime，无需云端、无 API 调用、无隐私顾虑 ...

今天在用Grok搜有意思的内容的时候，偶然发现 Supertonic这个开源项目，一个超快速、本地运行的多语言文本转语音（TTS）系统（但是不支持中文，中文的话可以找 Mimo-TTS系列模型）。

核心特点：

完全本地推理 — 基于 ONNX Runtime，无需云端、无 API 调用、无隐私顾虑
推荐阅读
openai 周限又重置了，已经放弃 claude 了

推荐阅读
[职场话题] 找到工作了还是很迷茫
极低延迟 — 可在边缘设备上实时合成语音
支持31 种语言 — 包括英文、日文、韩文等
99M 参数 — 体积小，冷启动快

然后就引起了我的好奇心，平时我们在和Gemini，

豆包这些AI语音交流的时候，中间发生了什么？

最新的技术方案还有端到端语音模型（如 GPT-4o realtime、Gemini Live），跳过中间文本环节，直接 spech-to-speech，延迟更低、能保留语气情感但是部署成本高。

所以让Codex手搓了一个Voice/Text to Voice的一个MVP项目。

具体实现：用户（Win + H）语音转文字------>LLM的输入（支持/v1/chat/completions协议）------>LLM输出文本------>Supersonic输出语音。当然其中应该涉及到延迟，打断，容错，信息丢失这些内容。今天一天暂时考虑不到这么多。

具体的成果就是可以在端侧，这里以Windows为例，实现简单的人与AI的语音对话。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

Voice2voice AI 通话解密今天一个帖子什么

Voice2voice 人与AI通话解密

openai 周限又重置了，已经放弃 claude 了

[职场话题] 找到工作了还是很迷茫

相关推荐