CosyVoice

4周前发布 6 00

CosyVoice是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成，支持多语言、音色和情感控制。CosyVoice能够生成中、英、日、粤、韩五种语言的语音，并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。...

收录时间：

2024-11-29

CosyVoice

CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成，支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音，并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。

CosyVoice – 阿里通义推出的开源语音生成模型，支持多语言和情感控制

CosyVoice 本身也是一款免费开源工具，可以部署到本地免费使用，下面简单介绍一下 windows 一键安装包的基础用法：

cosyvoice整合包下载地址

1.下载并解压安装包，记得安装路径中文、特殊字符和空格，否则可能会启动失败；

2. 双击运行 “GPU 诊断” 和 “查看 CUDA 版本” 文件，确保已经安装 CUDA，并且 GPU 可用。然后双击 “运行-CosyVoice-300M” 文件启动程序，等待 WebUI 界面开启（第一次会出现无法打开的提醒，无需理会，等待代码加载完成刷新后 WebUI 会自动打开）。

3. 在 WebUI 界面可以看到 4 种推理模式，每种模式代表不同的功能：

如果想用内置的预设音色生成音频，就选 “预训练音色” 模式。先在「输入合成文本」中输入待转换的文本，然后在「选择预训练音色」处选择一个音色，最后点击底部的「生成音频」，等待音频生成即可。生成的音频会自动保存在根目录的“音频输出”文件夹内

如果想克隆自己的声音在进行配音，选 “3s 极速复刻” 模式，然后按一下步骤操作：

先在「输入合成文本」中输入待转换的文本，
然后在「参考音频」处上传自己的声音文件（或用麦克风录制一份）。声音文件不要超过 30s，人声清晰不能有杂音，录制要连贯，不要有中断。
在「输入 prompt 文本」处输入上传音频的文字内容，比如我录的音频内容是“我是花生，很高兴和大家见面”，就把这几个字原封不动的填写进去。
点击底部的「生成音频」，等待音频生成，这里的音频就是用你自己的声音了。
完成后可以在「输入新的音色名称」处为我们的音色命名，比如我的是“XHS”，然后点击「保存刚刚推理的 zero-shot 音色」，我们的声音就会被保存为一个文件。之后在“预训练音色”模式下，可以在「选择新增音色」处随时选择使用我们自己的音色了。

数据统计

您必须登录才能参与评论！

暂无评论...