2025年12月19日

声音克隆：CosyVoice3和indexTTS2正面硬刚！

By tony 默认分类评论 0

昨天（已经是前天了）发布了 CosyVoice3 的一键运行包，我汇总了一下评论区的问题。

其中问到比较多的几个问题是：

硬件配置要求是什么？
和 B站的 IndexTTS2 比怎么样？

第一个问题，我是在 16G 5060 Ti 上跑的。我手上没有更小的显存了，根据我 AI 助手的情报，6G 勉强，8G 可以跑！整体来说声音模型会比图像模型好一点，硬件需求没有那么大。

第二个问题，我也很好奇。

所以今天我们就从几个维度来比较一下。

基准数据

这次 CosyVoice3 发布之后，官方更新了基准测试数据。

表格如下：

列的含义大致如下：

Model Size：模型参数规模大小，影响音质、稳定性、显存和速度
test-zh CER (%) ↓：中文字符错误率，衡量中文内容是否念准确
test-zh Speaker Similarity (%) ↑：中文场景下声音是否像目标说话人
test-en WER (%) ↓：英文词错误率，衡量英文内容是否念准确
test-en Speaker Similarity (%) ↑：英文场景下声音是否像目标说话人
test-hard CER (%) ↓：高难度场景下的字符错误率，衡量复杂语音是否念对
test-hard Speaker Similarity (%) ↑：高难度场景下声音是否还能保持像同一个人

从表格里来看，CosyVoice3 0.5B 版本是各方面刚好压着 IndexTTS2 1.5B 打的，但是有一个维度 IndexTTS 超强，就是高难度场景下的字符错误率！

当然，这个表格是 CosyVoice 做的，我们也得考虑到这一点。

另外一点是他们更大的 1.5B 模型还没有参赛！理论上来说肯定还要强不少。

所以，如果相信基准的情况下，CosyVoice 应该是更胜一筹！

实测情况

基准是一个偏理性的测试结果，下面我们来做一个感性的测试。不用什么复杂的大数据，就靠我们的耳朵，我们的直觉，你觉得哪个好，就是哪个好！

我时间、能力、条件都有限。只做几个最常用的常规测试。

常规克隆

我让 GPT 5.2 帮我写了一个关于人工智能的故事，总共 500 字。下面我就把这 500 字扔给两个模型，看看他们的表现如何。

大概内容：

人工智能学会了模仿语言、绘制图像、预测未来，却始终无法真正理解“故土”这两个字。对它而言，世界是数据的集合，是概率的叠加，是向量空间中最优的路径选择；而对人类来说，故土是一块无法被量化的土地，是记忆深处反复被调用却永不失真的情感模型。

CosyVoice3：

IndexTTS2

跨语言

接下来做个跨语言测试，我们用马云的中文声音作为 Prompt，然后合成英文内容。内容使用上面文章的英文版。

大概内容：

Artificial intelligence has learned how to imitate language, generate images, and predict the future—yet it will never truly understand the meaning of homeland.

To a machine, the world is a collection of data points, a stacking of probabilities, an optimal path through vector space.

CosyVoice3：

IndexTTS2：

情感克隆

下面测试一下情绪表达。就是提供喜怒哀乐的音频，让他们克隆这个情绪。因为手上没有好的素材，找了一个 IndexTTS 官方演示素材。

文本内容如下：

我已经一次又一次地试着理解你，试着告诉自己要冷静，要体谅，可是到最后，受伤的好像永远都是我。

对比效果如下：

路人克隆

上面的克隆，一个是马老板名人，而且是阿里的创始人，搞不好 CosyVoice3 用了大量数据来训练；另外一个是 IndexTTS 官方的例子，他们大概率也做了优化。接下来，我就用一个路人的声音来对比一下。

对比效果如下：

合成速度

首次加载可能要考虑载入的时间，所以全部是在多次合成之后，再进行测试。

CosyVoice 的情况：

04:10<00:00, 31.37s/it

生成 133 秒 的语音，耗时 250 秒，RTF 约为 1.88。

IndexTTS2 的情况：

 gpt_gen_time: 259.63 seconds
 gpt_forward_time: 0.59 seconds
 s2mel_time: 75.77 seconds
 bigvgan_time: 6.41 seconds
 Total inference time: 345.67 seconds
 Generated audio length: 118.20 seconds
 RTF: 2.9245
 wav file saved to: outputs\spk_1766045717.wav

生成 118 秒 的语音，耗时 345 秒，RTF 是 2.9 左右。

从上面的测试来看：

运行速度方面 CosyVoice3 要比 IndexTTS2 快一些。

从语速上来说 IndexTTS2 会快一些，CosyVoice3 停顿和节奏更自然。

我就不做过度解读了。

大家可以根据自然度和情感饱满度判断一下哪个比较厉害。重点关注下音色、语气、语调、停顿这些。

收工了，这两个项目一键包我都分享过了。

可以参考：

CosyVoice3一键包，3秒完美复刻声音！

声音克隆：IndexTTS2离线运行包和使用方法！

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================