Step-Video-T2V

1周前发布 3 00

Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。

收录时间:
2025-02-28
Step-Video-T2VStep-Video-T2V
Step-Video-T2V

Step-Video-T2V是由 阶跃星辰 与 吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。

其主要特点功能:

  1. 强大的模型参数:拥有 300 亿参数,能够生成最长 204 帧的视频,支持高分辨率和流畅的动态效果。
  2. 高效压缩技术:采用深度压缩变分自编码器(Video-VAE),实现 16×16 空间压缩和 8x 时间压缩,同时保持视频的高质量。
  3. 双语支持:内置双语文本编码器,支持中文和英文输入,适应多语言用户需求。
  4. 视觉质量优化:通过视频偏好优化(Video-DPO)技术,减少视频中的伪影,提升视觉效果,使生成的视频更加真实和自然。
  5. 多场景适用:在运动、风景、动物、节日、3D 动画等多个类别中表现出色,适用于创意内容制作、广告、教育等领域。

Step-Video-T2V 是一款开源模型,用户可以通过其 GitHub 仓库获取代码和模型权重,方便开发者进行二次开发和应用。

Step-Video-T2V:一款开源的多模态文本生成视频模型

数据统计

相关导航

Mini-Gemini

Mini-Gemini

Mini-Gemini是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs),由中国香港中文大学和 SmartMore 的研究人员共同推出。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs),从2B到34B。为了增强视觉token,该框架建议在不增加视觉token数量的情况下,利用额外的视觉编码器进行高分辨率细化。同时,Mini-Gemini还构建了一个高质量的数据集,以促进精确的图像理解和基于推理的生成,从而扩大当前VLM的操作范围。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...