TangoFlux

4周前发布 2 00

TANGOFLUX是一个高效的文本转音频(TTA)生成模型,拥有 515M 参数,能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频,TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。

收录时间:
2025-02-07
TangoFluxTangoFlux
TangoFlux

TANGOFLUX是一个高效的文本转音频(TTA)生成模型,拥有 515M 参数,能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频,TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。TANGOFLUX 由新加坡科技设计大学的 DeCLaRe 实验室与 NVIDIA 联合开发,旨在提升 TTA 模型的对齐性能,并通过创新的 CLAP-Ranked Preference Optimization(CRPO)框架优化偏好数据。

TANGOFLUX:开源超高速文本转音频(TTA)生成模型

主要功能特点:

  • 超高速音频生成: TANGOFLUX 能够在大约 3 秒内生成长达 30 秒的 44.1kHz 立体声音频,显著提高生成效率。
  • CLAP-Ranked Preference Optimization (CRPO): 通过迭代生成和优化偏好数据,增强 TTA 模型的对齐性能,使生成音频更符合用户偏好。
  • 高质量音频生成: 生成的音频在事件存在感、事件顺序再现和音质方面均优于现有模型,提供更好的用户体验。
  • 开源代码与模型: 所有代码和模型均开源,以支持进一步的 TTA 生成研究和比较。
  • 创新框架:通过 CRPO 框架,TANGOFLUX 生成的音频偏好数据质量更高,超越现有替代方案。

比较样本:

TANGOFLUX 与其他模型(如 Stable Audio, Open TANGO 2, AudioLDM2, AudioBox)的比较显示,TANGOFLUX 在多种音频生成任务中表现出更高的质量和更好的事件顺序再现能力。

使用场景:

  • 内容创作: 为作家、设计师和创意工作者提供高质量音频素材,提升创作效率。
  • 学术研究: 支持音频生成研究,方便学者和研究人员进行实验和数据分析。
  • 多媒体应用: 在游戏、电影和广告等多媒体领域应用,提供逼真且高质量的音频效果。

TANGOFLUX凭借其高效的生成速度和优质的音频效果,成为文本转音频生成领域的重要工具。通过 CRPO 框架的引入,TANGOFLUX 在多项基准测试中均取得了卓越表现,为未来的 TTA 生成研究提供了坚实基础。

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...