
TangoFlux
TANGOFLUX是一个高效的文本转音频(TTA)生成模型,拥有 515M 参数,能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频,TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。
LOADING
Tora 是阿里团队推出的一个视频生成模型,能够根据轨迹、图像、文本或其组合,快速生成精确运动控制的视频。它支持多种输入方式,如轨迹、文本和图像,并能生成高分辨率、运动可控的视频。
Tora 是阿里巴巴推出的创新视频生成工具,利用轨迹导向扩散变压器(Trajectory-oriented Diffusion Transformer, DiT)技术,实现高质量、运动可控的视频生成。Tora 支持文本、图像和轨迹的多模态输入,能够精确控制视频中的运动轨迹,生成高分辨率的视频内容,支持长达204帧、720p分辨率的视频制作。无论是动画制作、视频特效,还是其他需要精确运动控制的场景,Tora 都能提供卓越的解决方案。
Tora: 阿里推出的轨迹导向的视频生成模型
Tora 的技术原理基于轨迹导向扩散变压器(Trajectory-oriented Diffusion Transformer, DiT),主要包括以下几个关键组件:
这些组件共同作用,使 Tora 能够生成高分辨率、运动可控的视频,适应不同的分辨率、纵横比和时长需求。
Tora 的应用场景非常广泛,特别适用于需要精确控制视频内容的领域: