- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
上次hermes接入了minimax (我的 token plan plus 套餐有语音额度)对接到QQ,实现了音色克隆和语音合成,小助手能使用我喜欢的角色的声音发语音,简直不要太棒。
但是问题随之而来——克隆音色不包含在套餐的
我克隆一个音色,15元的体验金只剩下5元(我查询了一下克隆花了9.9元)
所以就考虑自己部署一个TTS模型实现声音克隆和合成。
我的硬件设备是:16G内存+6GB显存(RTX 3060)
采用的模型是:omini-voice
(如果有更好的模型大家可以推荐一下)
对应Github仓库: mllt992/xrilang-voice-clone-ominovoice: 基于ominovoice的音色克隆和语音合成。
聊聊这个过程遇到的问题:
首先遇到的第一个问题是性能问题。最开始克隆和合成都非常慢,然后发现没有成功启用显卡,但是启用显卡后发现,竟然内存不足了。
于是让AI分析项目,设计优化方案。
当然还存在一些不足
上图出现错误的原因我觉得有个因素就是提供的示例音频太长太大了
第二个问题是缺乏感情。音色虽然克隆了,也能合成了,但是对于一些句子,感情控制的不到位。
尤其是我克隆用的示例音频是游戏角色的语音,带有一定强烈的情感和风格,(比如语速快的。弄出来之后不管啥句子语速快,就不太合适)然后就是合成的语音,速度感情不到位,不能很好的适配文案。
想法是能不能先对文案做个分析?目前的方式是 做了一层服务侧的自动韵律增强。文案理解和模型解码参数接在一起,让语音在合成前先被拆成更适合朗读的小段,再对每一段单独调速度、停顿和风格提示,最后再拼回去
但是就这句话来说,感觉还是太受到克隆示例音色的感情风格影响了。(不过声音我觉得还是很还原的)比如“好耶”节奏慢了,不够欢快。“呜呜呜”是“呜(轻轻的短音停顿一下)呜(轻轻的短音停顿一下)呜(轻轻的短音停顿一下)”这样的,不是连贯的呜呜呜。
(感觉可能有点过度处理了)不知道还可以从哪些方面入手优化一下。
同样的角色音频同样的文案,对比了一下minimax生成的结果——呜呜呜差远了!!!!
但是对比了下huggingface上这个模型的效果,感觉还是会比直接使用模型好一些
What should I Do
OmniVoice本地部署实现音色克隆和语音合成 | 小黄花
2 个帖子 - 2 位参与者