声音克隆 :CosyVoice3和indexTTS2正面硬刚!

昨天(已经是前天了)发布了 CosyVoice3 的一键运行包,我汇总了一下评论区的问题。

其中问到比较多的几个问题是:

  1. 硬件配置要求是什么?
  2. 和 B站 的 IndexTTS2 比怎么样?

第一个问题,我是在 16G 5060 Ti 上跑的。我手上没有更小的显存了,根据我 AI 助手的情报,6G 勉强,8G 可以跑!整体来说声音模型会比图像模型好一点,硬件需求没有那么大。

第二个问题,我也很好奇。

所以今天我们就从几个维度来比较一下。

基准数据

这次 CosyVoice3 发布之后,官方更新了基准测试数据。

表格如下:

列的含义大致如下:

  • Model Size:模型参数规模大小,影响音质、稳定性、显存和速度
  • test-zh CER (%) ↓:中文字符错误率,衡量中文内容是否念准确
  • test-zh Speaker Similarity (%) ↑:中文场景下声音是否像目标说话人
  • test-en WER (%) ↓:英文词错误率,衡量英文内容是否念准确
  • test-en Speaker Similarity (%) ↑:英文场景下声音是否像目标说话人
  • test-hard CER (%) ↓:高难度场景下的字符错误率,衡量复杂语音是否念对
  • test-hard Speaker Similarity (%) ↑:高难度场景下声音是否还能保持像同一个人

从表格里来看,CosyVoice3 0.5B 版本是各方面刚好压着 IndexTTS2 1.5B 打的,但是有一个维度 IndexTTS 超强,就是高难度场景下的字符错误率!

当然,这个表格是 CosyVoice 做的,我们也得考虑到这一点。

另外一点是他们更大的 1.5B 模型还没有参赛!理论上来说肯定还要强不少。

所以,如果相信基准的情况下,CosyVoice 应该是更胜一筹!

实测情况

基准是一个偏理性的测试结果,下面我们来做一个感性的测试。不用什么复杂的大数据,就靠我们的耳朵,我们的直觉,你觉得哪个好,就是哪个好!

我时间、能力、条件都有限。只做几个最常用的常规测试。

常规克隆

我让 GPT 5.2 帮我写了一个关于人工智能的故事,总共 500 字。下面我就把这 500 字扔给两个模型,看看他们的表现如何。

大概内容:

人工智能学会了模仿语言、绘制图像、预测未来,却始终无法真正理解“故土”这两个字。 对它而言,世界是数据的集合,是概率的叠加,是向量空间中最优的路径选择;而对人类来说,故土是一块无法被量化的土地,是记忆深处反复被调用却永不失真的情感模型。

CosyVoice3:

IndexTTS2

跨语言

接下来做个跨语言测试,我们用马云的中文声音作为 Prompt,然后合成英文内容。内容使用上面文章的英文版。

大概内容:

Artificial intelligence has learned how to imitate language, generate images, and predict the future—yet it will never truly understand the meaning of homeland.

To a machine, the world is a collection of data points, a stacking of probabilities, an optimal path through vector space.

CosyVoice3:

IndexTTS2:

情感克隆

下面测试一下情绪表达。就是提供喜怒哀乐的音频,让他们克隆这个情绪。因为手上没有好的素材,找了一个 IndexTTS 官方演示素材。

文本内容如下:

我已经一次又一次地试着理解你,试着告诉自己要冷静,要体谅,可是到最后,受伤的好像永远都是我。

对比效果如下:

路人克隆

上面的克隆,一个是马老板名人,而且是阿里的创始人,搞不好 CosyVoice3 用了大量数据来训练;另外一个是 IndexTTS 官方的例子,他们大概率也做了优化。接下来,我就用一个路人的声音来对比一下。

对比效果如下:

合成速度

首次加载可能要考虑载入的时间,所以全部是在多次合成之后,再进行测试。

CosyVoice 的情况:

04:10<00:00, 31.37s/it

生成 133 秒 的语音,耗时 250 秒,RTF 约为 1.88

IndexTTS2 的情况:

 gpt_gen_time: 259.63 seconds
gpt_forward_time: 0.59 seconds
s2mel_time: 75.77 seconds
bigvgan_time: 6.41 seconds
Total inference time: 345.67 seconds
Generated audio length: 118.20 seconds
RTF: 2.9245
wav file saved to: outputs\spk_1766045717.wav

生成 118 秒 的语音,耗时 345 秒,RTF 是 2.9 左右。

从上面的测试来看:

运行速度方面 CosyVoice3 要比 IndexTTS2 快一些。

从语速上来说 IndexTTS2 会快一些,CosyVoice3 停顿和节奏更自然。

我就不做过度解读了。

大家可以根据自然度和情感饱满度判断一下哪个比较厉害。重点关注下音色、语气、语调、停顿这些。

收工了,这两个项目一键包我都分享过了。

可以参考:

CosyVoice3一键包,3秒完美复刻声音!

声音克隆:IndexTTS2离线运行包和使用方法!

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注