Spark-TTS

1年前发布 54 00

Spark-TTS是SparkAudio团队开源的基于大型语言模型（LLM）的高效文本转语音（TTS）工具，无需额外的生成模型，直接从LLM预测的编码中重建音频，实现零样本文本到语音的转换。Spark-TTS支持中英双语，具备跨语言合成能力，可通过参数调整（如性别、音调、语速）生成虚拟说话者的声音，满足多样化需求。

收录时间：

2025-03-06

手机查看

AI工具 AI音频工具开源工具 # AI语音克隆工具 # AI语音生成工具 # 多语言语音生成工具 # 文本转语音开源工具

Spark-TTS

打开网站

核心功能

高效语音合成：利用单流解耦语音编码技术，直接从模型预测编码中生成音频，无需额外声学特征生成模型。
零样本语音克隆：支持零样本语音克隆，可在无特定训练数据的情况下复制说话者声音，尤其适合跨语言和代码切换场景。
双语支持：兼容中文和英文语音合成，具有高自然度和准确性，适合多语言环境。
可控语音生成：提供丰富的参数调整功能，例如性别、音高、语速等，满足个性化需求。

适用场景

语音助手：为智能设备提供更自然的语音交互体验。
教育工具：生成高质量语音示例，帮助语言学习者掌握发音。
内容创作：为视频和播客添加个性化语音配音。
无障碍技术：为语音障碍者提供个性化语音支持。

Spark-TTS的使用方法

1. 环境准备

安装依赖：确保已安装 Python（建议版本 3.12 或更高）和 Conda 环境管理工具。

克隆代码仓库：运行以下命令将 Spark-TTS 仓库克隆到本地：

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

创建虚拟环境：使用 Conda 创建并激活虚拟环境：

conda create -n sparktts -y python=3.12
conda activate sparktts

安装依赖库：运行以下命令安装所需依赖：

pip install -r requirements.txt

2. 下载预训练模型

通过 Python 下载：

from huggingface_hub import snapshot_download
snapshot_download(“SparkAudio/Spark-TTS-0.5B”, local_dir=”pretrained_models/Spark-TTS-0.5B”)

通过 Git 下载：

mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

3. 基本使用

运行示例脚本：

cd example
bash infer.sh

命令行生成语音：

python -m cli.inference \
–text “需要合成的文本” \
–device 0 \
–save_dir “保存音频的路径” \
–model_dir pretrained_models/Spark-TTS-0.5B \
–prompt_text “提示音频的文本内容” \
–prompt_speech_path “提示音频的路径”

4. 使用 Web 界面

启动 Web UI：运行以下命令启动界面：

python webui.py –device 0

功能支持：Web 界面支持语音克隆和语音生成，可上传参考音频或直接录制音频。

5. 可选功能

语音克隆：上传参考音频，生成与参考音频相似的语音。
语音参数调整：通过调整性别、语速、音高等参数，生成个性化语音。

Spark-TTS的GitHub仓库：https://github.com/SparkAudio/Spark-TTS

数据统计

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Spark-TTS

核心功能

适用场景

Spark-TTS的使用方法

数据统计

相关导航

Reecho AI睿声

MyVocal.AI

Resemble AI

暂无评论

热门推荐