2025年12月17日

CosyVoice3一键包，3秒完美复刻声音！Windows+RTX5060ti

By tony 默认分类评论 0

终于把 CosyVoice3 这个一键包给搞出来了！（见文末）

前两天阿里通义突然就开源了一个语音合成模型，一个语音识别模型。

这两个模型可玩性很高！其中的语音合成模型 CosyVoice，我在很久之前就介绍过，很厉害，也制作过一键包。

下面让马老板亲自给大家介绍一下这个模型：

然后来听一段悄悄话：

【音频】

很显然 CosyVoice3 会比之前的版本强很多，具体有哪些方面的提升，可以看下面的介绍。

Fun-CosyVoice3 大模型完成多项关键升级：

首包延迟降低 50%，支持双向流式合成，真正实现“输入即发声”，适用于语音助手、直播配音、无障碍阅读等实时场景；
中英混说词错误率（WER）相比之前降低 56.4%，不论是含专业术语、大小写混排，还是语码转换的句子，都能精准、自然地发音；
在 zero-shot TTS 评测中，内容一致性与音色相似度全面提升，复杂场景（test-hard）字符错误率（CER）相对降低 26%，接近人类录音水平；
9 种通用语言、18 种中文方言、9 种情感控制，并具备跨语种音色复刻能力——用一段普通话录音，即可生成粤语、日语、英语等语音，音色保持高度一致。

注意，这个是在之前的 3.0 的基础上升级的部分。而 3.0 又在 2.0 上做了很多升级。

CosyVoice3 的介绍就说这么多。下面就说一下一键运行包怎么用。

整体来说很简单，模型，软件和依赖都已经全部打包在里面了。只要你硬件没问题，运行起来应该很轻松。

具体方法如下。

首先下载软件包。