
Goku是由香港大学与字节跳动联合研发的多模态视频生成模型,基于校正流 Transformer 架构(Rectified Flow Transformer),专为图像与视频的联合生成优化。该模型于 2025 年 2 月正式发布技术报告,其核心目标是通过低成本、高效率的生成能力,革新数字内容创作流程,尤其在广告营销、电商展示等领域展现出颠覆性潜力。
功能特点:
1.多模态生成能力:
- 文本到视频(Text-to-Video):通过自然语言描述直接生成动态视频,支持复杂场景与人物交互。例如,根据“夏日海滩饮品广告”生成包含人物动作和产品特写的完整短片。
- 图像到视频(Image-to-Video):以单张商品图或场景图为输入,生成动态展示视频。例如,将静态服装图转化为模特试穿效果的连贯镜头。
- 文本到图像(Text-to-Image):生成高分辨率图像,支持细节控制,如光照、材质等参数调整。
2.技术架构创新:
- 校正流框架:Goku 采用了校正流(Rectified Flow)Transformer,结合图像-视频联合 VAE(变分自编码器)以及全注意力 Transformer,使得模型能够统一处理图像和视频生成任务。通过优化生成路径的连续性,减少传统扩散模型的迭代步骤,提升生成效率。
- 多阶段训练策略:通过图文语义对齐预训练、图像-视频联合训练以及针对不同模态的微调,分阶段提升模型能力,初期聚焦基础特征学习,后期强化时序连贯性与细节精度。
- 大规模数据集支撑:研究人员构建了约 3600 万视频和 1.6 亿图像的大规模数据集,并采用多种数据过滤和增强技术来提高数据质量。
3.成本与性能优势:
- Goku+ 商业版本:作为视频广告专用基础模型,其生成成本仅为传统拍摄制作的 1/100,且支持个性化定制(如品牌 Logo 植入、多语言配音等)。
- SOTA 性能:在 MSR-VTT 和 UCF-101 等基准测试中,文本到视频生成任务刷新行业记录,视频连贯性与语义对齐度领先同类模型 20% 以上。
使用方法:
第一步:模型选择与部署。提供三种规模模型:轻量版(移动端适配)、标准版(通用场景)、企业版(支持 4K 分辨率与长视频生成)。
支持云端 API 调用与本地化部署,企业用户可通过字节跳动火山引擎平台接入。
第二步:输入与参数配置。输入格式:文本提示需遵循结构化描述(如“主体-动作-场景-风格”),图像输入支持 PNG/JPG 及透明背景格式。
控制参数:包括视频时长(默认 5 秒,可扩展至 60 秒)、帧率(24/30/60fps)、分辨率(最高 4096×2160)及风格化滤镜(如“写实风”“卡通渲染”)。
第三步:交互式编辑。支持生成后逐帧微调,例如修改局部动作、替换背景元素,或通过文本指令追加特效(如“添加雨滴效果”)。
产品应用:
- 电商与广告营销:
- 商品动态展示:仅需一张产品图,即可生成包含虚拟主播讲解和多角度展示的广告视频,适用于淘宝、抖音等平台的商品详情页。
- 低成本本地化广告:针对不同地区市场,快速生成适配语言与文化背景的广告内容,显著降低跨国营销成本。
- 社交媒体内容创作:
- 吃播/教程视频生成:输入食材列表与步骤描述,自动生成烹饪过程视频,支持添加互动字幕与背景音乐。
- UGC 辅助工具:为创作者提供“文案转视频”功能,将图文内容自动转化为短视频,提升内容产出效率。
- 影视与游戏预制作:
- 分镜预览:通过文本快速生成剧情分镜,辅助导演与编剧可视化叙事节奏。
- NPC 动作库构建:为游戏开发提供批量角色动作生成,减少手动建模工作量。
Goku 的发布标志着 AI 视频生成从“辅助工具”向“生产级应用”的跨越。其低成本特性已吸引多家国际快消品牌进行试点合作,据估算可减少 80% 的广告制作周期。未来,结合实时渲染与 3D 建模技术,Goku 有望进一步拓展至虚拟现实、元宇宙等场景。当前技术局限主要体现为长视频的情节逻辑控制,但团队表示将通过引入强化学习机制持续优化。
- GitHub:https://github.com/Saiyan-World/goku
- 项目地址:https://saiyan-world.github.io/goku/
- 论文:https://arxiv.org/abs/2502.04896
数据统计
相关导航

RefViz 是由 Thomson - ISI Researchsoft 开发的一种数据可视化和分析软件,旨在帮助研究人员更好地评估参考文献、规划未来项目并发布他们的工作。RefViz 提供了强大的工具,可以通过主题内容分析大量参考文献,并提供一个一目了然的概览,展示参考文献集中讨论的主要主题。

LibreChat
LibreChat 是一个开源的AI对话应用程序,旨在为用户提供一个全面、可定制的 AI 对话平台。它支持多种 AI 模型,包括OpenAI、Azure、Anthropic和Google等。LibreChat的特点在于其多模态交互能力,能够处理图像、文件等多种输入类型,并为用户提供强大的对话和操作功能,适用于各种应用场景。

Al Face Swap
AI Face Swap是一个免费的在线AI人脸替换工具,利用先进的人工智能技术进行照片和视频中的人脸替换。用户只需上传照片或视频,即可享受即时的人脸替换效果。AI Face Swap 支持单张图片人脸替换、视频人脸替换和批量处理多张图像,界面友好,无需专业知识。

Magi
Magi 的模型是一个可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。

小K电商图
一键生成高质量商用级电商图片

AnimateDiff-Lightning
AnimateDiff-Lightning 是字节跳动推出的最新文本到视频生成模型,采用渐进式对抗扩散蒸馏技术,实现了比原版 AnimateDiff 快十倍以上的生成速度。该模型仅需 4-8 步推理即可生成高质量视频,极大提升了视频内容创作的效率和质量。AnimateDiff-Lightning 特别适用于动画转绘和视频转视频场景,提供了卓越的生成效果和用户体验。

网易天音
网易天音是网易推出的专业AI音乐创作工具,集成了AI编曲、AI作词、AI一键写歌等多项功能。无论是音乐爱好者还是专业制作人,只需输入灵感,网易天音便能快速生成高质量的音乐作品。平台支持精细化调整,用户可以自由编辑歌词、旋律和编曲,打造独一无二的音乐作品。网易天音还提供虚拟歌姬歌声合成,助力创作更具表现力的歌曲。

Tarsier
Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。
暂无评论...