声音克隆 :CosyVoice3和indexTTS2正面硬刚!
昨天(已经是前天了)发布了 CosyVoice3 的一键运行包,我汇总了一下评论区的问题。

其中问到比较多的几个问题是:
- 硬件配置要求是什么?
- 和 B站 的 IndexTTS2 比怎么样?
第一个问题,我是在 16G 5060 Ti 上跑的。我手上没有更小的显存了,根据我 AI 助手的情报,6G 勉强,8G 可以跑!整体来说声音模型会比图像模型好一点,硬件需求没有那么大。
第二个问题,我也很好奇。
所以今天我们就从几个维度来比较一下。
基准数据
这次 CosyVoice3 发布之后,官方更新了基准测试数据。
表格如下:

列的含义大致如下:
- Model Size:模型参数规模大小,影响音质、稳定性、显存和速度
- test-zh CER (%) ↓:中文字符错误率,衡量中文内容是否念准确
- test-zh Speaker Similarity (%) ↑:中文场景下声音是否像目标说话人
- test-en WER (%) ↓:英文词错误率,衡量英文内容是否念准确
- test-en Speaker Similarity (%) ↑:英文场景下声音是否像目标说话人
- test-hard CER (%) ↓:高难度场景下的字符错误率,衡量复杂语音是否念对
- test-hard Speaker Similarity (%) ↑:高难度场景下声音是否还能保持像同一个人
从表格里来看,CosyVoice3 0.5B 版本是各方面刚好压着 IndexTTS2 1.5B 打的,但是有一个维度 IndexTTS 超强,就是高难度场景下的字符错误率!
当然,这个表格是 CosyVoice 做的,我们也得考虑到这一点。
另外一点是他们更大的 1.5B 模型还没有参赛!理论上来说肯定还要强不少。
所以,如果相信基准的情况下,CosyVoice 应该是更胜一筹!
实测情况
基准是一个偏理性的测试结果,下面我们来做一个感性的测试。不用什么复杂的大数据,就靠我们的耳朵,我们的直觉,你觉得哪个好,就是哪个好!
我时间、能力、条件都有限。只做几个最常用的常规测试。
常规克隆
我让 GPT 5.2 帮我写了一个关于人工智能的故事,总共 500 字。下面我就把这 500 字扔给两个模型,看看他们的表现如何。
大概内容:
人工智能学会了模仿语言、绘制图像、预测未来,却始终无法真正理解“故土”这两个字。 对它而言,世界是数据的集合,是概率的叠加,是向量空间中最优的路径选择;而对人类来说,故土是一块无法被量化的土地,是记忆深处反复被调用却永不失真的情感模型。
CosyVoice3:
IndexTTS2
跨语言
接下来做个跨语言测试,我们用马云的中文声音作为 Prompt,然后合成英文内容。内容使用上面文章的英文版。
大概内容:
Artificial intelligence has learned how to imitate language, generate images, and predict the future—yet it will never truly understand the meaning of homeland.
To a machine, the world is a collection of data points, a stacking of probabilities, an optimal path through vector space.
CosyVoice3:
IndexTTS2:
情感克隆
下面测试一下情绪表达。就是提供喜怒哀乐的音频,让他们克隆这个情绪。因为手上没有好的素材,找了一个 IndexTTS 官方演示素材。
文本内容如下:
我已经一次又一次地试着理解你,试着告诉自己要冷静,要体谅,可是到最后,受伤的好像永远都是我。
对比效果如下:
路人克隆
上面的克隆,一个是马老板名人,而且是阿里的创始人,搞不好 CosyVoice3 用了大量数据来训练;另外一个是 IndexTTS 官方的例子,他们大概率也做了优化。接下来,我就用一个路人的声音来对比一下。
对比效果如下:
合成速度
首次加载可能要考虑载入的时间,所以全部是在多次合成之后,再进行测试。
CosyVoice 的情况:
04:10<00:00, 31.37s/it
生成 133 秒 的语音,耗时 250 秒,RTF 约为 1.88。
IndexTTS2 的情况:
gpt_gen_time: 259.63 seconds
gpt_forward_time: 0.59 seconds
s2mel_time: 75.77 seconds
bigvgan_time: 6.41 seconds
Total inference time: 345.67 seconds
Generated audio length: 118.20 seconds
RTF: 2.9245
wav file saved to: outputs\spk_1766045717.wav
生成 118 秒 的语音,耗时 345 秒,RTF 是 2.9 左右。
从上面的测试来看:
运行速度方面 CosyVoice3 要比 IndexTTS2 快一些。
从语速上来说 IndexTTS2 会快一些,CosyVoice3 停顿和节奏更自然。
我就不做过度解读了。
大家可以根据自然度和情感饱满度判断一下哪个比较厉害。重点关注下音色、语气、语调、停顿这些。
收工了,这两个项目一键包我都分享过了。
可以参考: