[分享创造] 需要配音,无从下手?一个软件足矣! 欢迎使用 Neiroha--多端接入、多平台适配的配音工作站

半年之前做了一个名叫 CosyvoiceDesktop 的开源项目 半年下来,这个项目已经积攒上百颗 star 了,但是总感觉这个软件不够好用,不能方便的切换 tts 引擎,而且 python 编写的 gui 和 torch 混一起太过于臃肿了. 于是最近做了一个叫 Neiroha 的开源项目,想分...
[分享创造] 需要配音,无从下手?一个软件足矣! 欢迎使用 Neiroha--多端接入、多平台适配的配音工作站
[分享创造] 需要配音,无从下手?一个软件足矣! 欢迎使用 Neiroha--多端接入、多平台适配的配音工作站

半年之前做了一个名叫CosyvoiceDesktop的开源项目

半年下来,这个项目已经积攒上百颗 star 了,但是总感觉这个软件不够好用,不能方便的切换 tts 引擎,而且 python 编写的 gui 和 torch 混一起太过于臃肿了. 于是最近做了一个叫 Neiroha 的开源项目,想分享一下

它的定位是 AI 音频中间件和配音工作站。简单说,不是再做一个“输入一句话然后生成语音”的 TTS 页面,而是把本地和云端 TTS 后端整理成一套可以长期使用的工作流。

Neiroha 主要做了几件事:

  1. 把不同 TTS 后端统一成 Provider 管理,可以接 OpenAI 兼容 TTS 、Azure 、Gemini 、GPT-SoVITS 、CosyVoice3 、VoxCPM2 、Windows SAPI 等(本地不跑 voxcpm 这样的模型也可以接 Azure 之类云端的 tts api 使用)
  2. 把模型、音色、语速、参考音频、提示文本、风格指令这些参数保存成“语音角色”,再用“语音库”统一管理一组角色
  3. 支持多角色对话 TTS 、长文本分段合成、小说朗读、视频字幕配音、生成队列、缓存和失败检查
  4. 也可以把当前语音库暴露成本地 OpenAI 兼容的 TTS API ,让脚本、Agent 、SillyTavern 或其他工具直接调用

软件相关截图展示:

本地 tts 推理引擎后端方面,我也整理了几个配套的 Neiroha 后端,都是提供了 windows 端便携包的(pytorch+cu128 推理实现,理论支持 30 系到 50 系 n 卡),下载解压点击 bat 即能开启 api 服务,方便大家使用:

GPT-SoVITS: https://github.com/Neiroha/Neiroha-GPT-SoVITS CosyVoice3: https://github.com/Neiroha/Neiroha-Cosyvoice VoxCPM2: https://github.com/Neiroha/Neiroha-VoxCPM

需要说明的是,Neiroha 本身作为一个 Flutter/Dart 编写的软件本身不包含任何 tts 模型,也不把上游模型能力包装成自己的能力。它更像是一个工作台和中间件,负责把这些云端或者本地电脑跑的 TTS 引擎接进统一界面、项目管理和 API 工作流里。实际音质和速度还是取决于底层模型、显卡、参考音频和文本内容。

项目地址: 开源仓库地址: https://github.com/Neiroha/Neiroha 软件下载:https://github.com/Neiroha/Neiroha/releases 使用说明文档: https://neiroha.github.io/

有 bug 请在 issue 区内反馈,如果觉得做的不错希望能给个 star

来源: v2ex查看原文