热门

SEED-Story

6个月前发布 9 00

SEED-Story是一个腾讯开源的基于大型语言模型（MLLM）的多模态长篇故事生成模型，它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事，SEED-Story都能提供高质量、多模态的内容，助力创意产业的发展。

收录时间：

2024-11-28

打开网站手机查看

AI大模型 # AI故事生成器 # 叙事文本图片生成 # 多模态故事生成 # 多模态长篇故事生成模型 # 腾讯SEED-Story

SEED-Story

SEED-Story

SEED-Story是一个腾讯开源的基于大型语言模型（MLLM）的多模态长篇故事生成模型，它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事，SEED-Story都能提供高质量、多模态的内容，助力创意产业的发展。

SEED-Story的功能特点

基于大型语言模型（MLLM）：SEED-Story利用先进的MLLM技术，能够从用户提供的图像和文本作为起点，生成包含丰富、连贯的叙事文本以及风格一致的图像的多模态长篇故事。
生成内容丰富：生成的故事不仅包含文字描述，还包含与文字内容相匹配、风格一致的图像，增强了故事的沉浸感和表现力。
保持一致性：在生成过程中，SEED-Story能够确保角色形象和故事风格的一致性，使得整个故事更加连贯和吸引人。

SEED-Story的技术原理

SEED-Story是一个基于大型语言模型（MLLM）的多模态长篇故事生成模型，其技术原理主要包括以下几个阶段：

1.预训练阶段：

在第一阶段，SEED-Story预训练了一个基于SD-XL的去标记化器（de-tokenizer）。该去标记化器通过接受预训练的视觉变换器（ViT）的特征作为输入来重建图片。

这一阶段的目标是使模型能够理解和生成高质量的视觉内容。

2.序列训练阶段：

在第二阶段，模型采样一个随机长度的交错图像-文本序列。通过对目标图像的ViT特征和可学习查询的输出隐藏状态之间的下一个词预测和图像特征回归来训练大型语言模型（MLLM）。

这一阶段的目标是使模型能够生成连贯的叙事文本，并在文本和图像之间建立关联。

3.调优阶段：

在第三阶段，从MLLM回归得到的图像特征被输入到去标记化器中，以调整SD-XL。

这一阶段的目标是增强生成图片中角色和风格的一致性，使生成的故事内容更加连贯和一致。

通过这三个阶段的训练和调优，SEED-Story能够生成丰富且连贯的叙事文本，并在角色和风格上保持一致的图片，适用于多模态长篇故事生成。

适用场景

小说创作：作家可以使用SEED-Story生成连贯的叙事文本和风格一致的插图，帮助他们快速构思和创作长篇小说。
剧本编写：编剧可以利用SEED-Story生成剧本内容和视觉元素，为电影、电视剧和舞台剧提供创意支持。
视觉故事：艺术家和设计师可以使用SEED-Story生成视觉故事，结合文本和图片，创造出引人入胜的多媒体作品。
教育和培训：教育工作者可以利用SEED-Story生成教育内容和教学材料，帮助学生更好地理解和学习复杂的概念。
广告和营销：营销人员可以使用SEED-Story生成创意广告和营销材料，吸引目标受众的注意力。
游戏开发：游戏开发者可以利用SEED-Story生成游戏剧情和视觉元素，提升游戏的故事性和沉浸感。

数据统计

相关导航

云雀大模型

云雀大模型是字节跳动公司开发的一款大规模预训练语言模型。该模型采用 Transformer 架构，它能够处理多种自然语言处理任务，如聊天、绘画、写作和学习。云雀大模型利用了大量的数据进行训练，包括文本、图像、视频和音频等，以学习丰富的语言知识和语境信息。此外，它还具有视频内容理解能力，能够识别视频中的对象、场景和情感等关键要素，为多模态任务提供支持。

Boximator

Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动，从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说，Boximator可以通过文本精准控制生成视频中人物或物体的动作，能生成包含多个角色以及特定类型运动的复杂场景，并能精确生成物体和背景的细节。

DeepSeek

DeepSeek（深度求索）是一款当前非常火爆的开源大型语言模型，因其性能媲美世界顶尖的闭源模型如 ChatGPT 和 Claude 而备受瞩目。该模型在极低成本的情况下完成训练，为用户提供了高效、精准的语言理解和生成能力。

MusiConGen

MusiConGen是一种基于Transformer的文本到音乐生成模型。它通过引入时间条件机制，显著提升了对音乐节奏和和弦的控制能力。该模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。

ClotheDreamer

ClotheDreamer 是一种基于 3D 高斯方法的工具，用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法，使得服装和人体模型可以分别优化。

EMO

EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说，EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件（例如说话、唱歌的声音），EMO就能够根据音频内容生成一个生动的视频，视频中的人物会展现出丰富的面部表情和多变的头部动作，仿佛照片中的人物正在唱你所制定的语言或歌曲。

Gen-3 Alpha

Gen-3 Alpha是Runway公司开发的一款先进的AI视频生成模型。它能够根据用户的输入（如文本描述、图像或视频片段）创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。

Segment Anything

Segment Anything是一个基于深度学习的图像分割模型，它可以根据用户的输入提示（如点或框）生成高质量的物体遮罩。它可以用于为图像中的任何物体生成遮罩，无论是常见的物体（如人、车、猫等），还是罕见的物体（如火箭、恐龙、魔法棒等）。它的特点是具有强大的零样本性能，即它可以在没有见过的类别上进行分割，而不需要额外的训练数据。它的另一个优点是具有快速的推理速度，即它可以在几秒钟内处理一张图像，而不需要显卡或云计算资源。

暂无评论

您必须登录才能参与评论！

none

暂无评论...