文本生成视频大模型

共 1 篇网址

排序

发布更新浏览点赞

CogVideo

CogVideo是目前最大的通用领域文本到视频生成预训练模型，含94亿参数。CogVideo将预训练文本到图像生成模型（CogView2）有效地利用到文本到视频生成模型，并使用了多帧率分层训练策略。用于文本到视频的生成。它是基于Transformer架构的，旨在通过理解和转换文本描述来生成相应的视频内容。CogVideo能够处理大量的文本-视频对数据，并通过学习这些数据的模式来生成与文本描述相匹配的视频。

0110

AI大模型 # CogVideo # 文本到视频生成预训练模型 # 文本生成视频大模型