PixArt-Σ

6个月前发布 12 00

PIXART-Σ是华为推出的图像生成模型，由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构，专用于生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像，相较于前身PixArt-α，它提供了更高的图像保真度和与文本提示更好的对齐。

收录时间：

2024-11-29

打开网站手机查看

PixArt-Σ

打开网站

PIXART-Σ是华为推出的图像生成模型，由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构，可直接生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像，相较于前身PixArt-α，它提供了更高的图像保真度和与文本提示更好的对齐。

PixArt-Σ的关键特性包括高效的训练过程，它通过结合更高质量的数据，从“较弱”的基线模型进化到“更强”的模型，这一过程被称为“弱到强训练”。PixArt-Σ的改进还包括使用了一种新的注意力模块，用于在DiT框架内压缩键和值，显著提高了效率，并促进了超高分辨率图像的生成。

PixArt-Σ适用于需要生成高分辨率图像的应用场景，如电影海报和壁纸设计、游戏视觉内容制作等。无论是艺术家、设计师还是视觉内容创作者，PixArt-Σ都能提供高效、高质量的图像生成解决方案。

此外，研究团队还提供了相关的代码和演示，以便其他研究人员和开发者可以进一步探索和利用这个模型。

项目地址：https://pixart-alpha.github.io/PixArt-sigma-project/

论文地址：https://arxiv.org/abs/2401.05252

PIXART-Σ文生图模型视频介绍：

https://img.pidoutv.com/wp-content/uploads/2024/03/1467539549-1-16.mp4

功能特点

PIXART-Σ的功能特点主要体现在以下几个方面：

高效的训练过程：PIXART-Σ通过结合更高质量的数据，实现了从“较弱”的基线模型到“更强”的模型的进化，这一过程被称为“弱到强训练”。这种训练方式不仅提高了模型的性能，也使其在处理各种复杂的图像生成任务时具有更高的效率。
高效的标记压缩：PIXART-Σ采用了高效的标记压缩技术，这种技术可以显著减少训练过程中的计算量，同时保持模型的性能，从而进一步提升了训练效果。
4K文本到图像生成：PIXART-Σ支持直接生成4K分辨率的高质量图像，这对于需要高分辨率视觉内容的应用场景，如电影、游戏和高质量视觉内容制作等，具有极大的价值。
较小的模型大小：尽管PIXART-Σ能够实现卓越的图像质量和用户提示的遵循能力，但其模型大小却相对较小，这使其在运行和部署时具有更高的灵活性和效率。

和主流其他模型效果对比

上图展示了PixArt-Σ与一些开源模型（如PixArt-α和SDXL）在相同的文本提示下的生成效果：与PixArt-α相比，PixArt-Σ显著提高了肖像的真实感和语义分析能力。与SDXL相比，该方法具有更好的遵循用户指令的能力。其中关键字高亮显示为蓝色。

上图展示了PixArt-Σ和其它四款T2I产品：Firefly 2、Imagen 2、Dalle 3和Midjourney V6在相同的文本提示下的生成效果。通过观察，我们可以发现：PixArt-Σ生成的图像与这些商业产品相比非常具有竞争力。

数据统计

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

PixArt-Σ

功能特点

和主流其他模型效果对比

数据统计

相关导航

Ferret-UI

Moonvalley.ai

快手可图大模型KOLORS

讯飞星火大模型

Segment Anything

腾讯混元DiT

YAYI2

DDColor

暂无评论

热门推荐