Goku

4个月前发布 10 00

Goku 是一个基于流生成的视频生成基础模型，由香港大学和字节跳动研究团队共同开发。Goku 模型主要用于生成高质量的视频内容，尤其在广告和营销场景中表现尤为出色。

收录时间：

2025-02-17

手机查看

Goku

打开网站

Goku是由香港大学与字节跳动联合研发的多模态视频生成模型，基于校正流 Transformer 架构（Rectified Flow Transformer），专为图像与视频的联合生成优化。该模型于 2025 年 2 月正式发布技术报告，其核心目标是通过低成本、高效率的生成能力，革新数字内容创作流程，尤其在广告营销、电商展示等领域展现出颠覆性潜力。

功能特点：

1.多模态生成能力：

文本到视频（Text-to-Video）：通过自然语言描述直接生成动态视频，支持复杂场景与人物交互。例如，根据“夏日海滩饮品广告”生成包含人物动作和产品特写的完整短片。
图像到视频（Image-to-Video）：以单张商品图或场景图为输入，生成动态展示视频。例如，将静态服装图转化为模特试穿效果的连贯镜头。
文本到图像（Text-to-Image）：生成高分辨率图像，支持细节控制，如光照、材质等参数调整。

2.技术架构创新：

校正流框架：Goku 采用了校正流（Rectified Flow）Transformer，结合图像-视频联合 VAE（变分自编码器）以及全注意力 Transformer，使得模型能够统一处理图像和视频生成任务。通过优化生成路径的连续性，减少传统扩散模型的迭代步骤，提升生成效率。
多阶段训练策略：通过图文语义对齐预训练、图像-视频联合训练以及针对不同模态的微调，分阶段提升模型能力，初期聚焦基础特征学习，后期强化时序连贯性与细节精度。
大规模数据集支撑：研究人员构建了约 3600 万视频和 1.6 亿图像的大规模数据集，并采用多种数据过滤和增强技术来提高数据质量。

3.成本与性能优势：

Goku+ 商业版本：作为视频广告专用基础模型，其生成成本仅为传统拍摄制作的 1/100，且支持个性化定制（如品牌 Logo 植入、多语言配音等）。
SOTA 性能：在 MSR-VTT 和 UCF-101 等基准测试中，文本到视频生成任务刷新行业记录，视频连贯性与语义对齐度领先同类模型 20% 以上。

使用方法：

第一步：模型选择与部署。提供三种规模模型：轻量版（移动端适配）、标准版（通用场景）、企业版（支持 4K 分辨率与长视频生成）。

支持云端 API 调用与本地化部署，企业用户可通过字节跳动火山引擎平台接入。

第二步：输入与参数配置。输入格式：文本提示需遵循结构化描述（如“主体-动作-场景-风格”），图像输入支持 PNG/JPG 及透明背景格式。

控制参数：包括视频时长（默认 5 秒，可扩展至 60 秒）、帧率（24/30/60fps）、分辨率（最高 4096×2160）及风格化滤镜（如“写实风”“卡通渲染”）。

第三步：交互式编辑。支持生成后逐帧微调，例如修改局部动作、替换背景元素，或通过文本指令追加特效（如“添加雨滴效果”）。

产品应用：

电商与广告营销：
- 商品动态展示：仅需一张产品图，即可生成包含虚拟主播讲解和多角度展示的广告视频，适用于淘宝、抖音等平台的商品详情页。
- 低成本本地化广告：针对不同地区市场，快速生成适配语言与文化背景的广告内容，显著降低跨国营销成本。
社交媒体内容创作：
- 吃播/教程视频生成：输入食材列表与步骤描述，自动生成烹饪过程视频，支持添加互动字幕与背景音乐。
- UGC 辅助工具：为创作者提供“文案转视频”功能，将图文内容自动转化为短视频，提升内容产出效率。
影视与游戏预制作：
- 分镜预览：通过文本快速生成剧情分镜，辅助导演与编剧可视化叙事节奏。
- NPC 动作库构建：为游戏开发提供批量角色动作生成，减少手动建模工作量。

Goku 的发布标志着 AI 视频生成从“辅助工具”向“生产级应用”的跨越。其低成本特性已吸引多家国际快消品牌进行试点合作，据估算可减少 80% 的广告制作周期。未来，结合实时渲染与 3D 建模技术，Goku 有望进一步拓展至虚拟现实、元宇宙等场景。当前技术局限主要体现为长视频的情节逻辑控制，但团队表示将通过引入强化学习机制持续优化。

GitHub：https://github.com/Saiyan-World/goku
项目地址：https://saiyan-world.github.io/goku/
论文：https://arxiv.org/abs/2502.04896

数据统计

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Goku

功能特点：

使用方法：

产品应用：

数据统计

相关导航

RefViz

LibreChat

Al Face Swap

Magi

小K电商图

AnimateDiff-Lightning

网易天音

Tarsier

暂无评论

热门推荐