ASR现在是真的很强,不过不是变声技术不讨论
TTS这方面,我个人感觉综合效果最好的还是GPT-SoVITS(情感专精 IndexTTS2),但是从使用水平上(还原度、活人感、音色覆盖面、电颤音、性能、易用性、样本强依赖等等)上面都还不太行,也有一年没更新了,没感到技术进步 ![]()
VC更是沉默的羔羊,我个人只用过RVC,以RVC为基座的各种变声器,B站上乱七八糟一大堆,说好用吧,技术也没有进步多少,收费倒是着急。转歌声,不说处理歌声有多麻烦,就算是干净的歌声,音域覆盖不全电音撕裂是常态,音高曲线的优化算法也不见踪影,还得让人来修音(话说修音技术感觉发展也很迟缓),最终效果只能忍受瑕疵,连优化到完美的路子都没有
虚拟歌姬算是音色创造比较成熟的路子了,无奈闭源,应用场景局限
到底什么时候才能等到音色技术发展到可以将音色的情感等等声音细节都解析调制,能制造定制化的音色啊,变声或者单纯合成声音都行啊,这样我就可以给自己换一套超酷的可爱声音了(或者嘴替)!
以上内容均来自个人经验,最希望是我太落伍,创造声音的最前沿到底是怎么样的呢?
4 个帖子 - 3 位参与者