
CatVTON是一款由中山大学、美图和鹏城实验室(Pixocial)联合发布的基于扩散模型的虚拟试穿技术工具,旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿,该方法有效地降低了模型复杂度和计算成本,同时保持了高质量的虚拟试衣效果,特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。
这个是官方作者给出的效果:
主要特点
- 轻量级与高效性:CatVTON采用轻量级的网络结构,总参数量为899.06M,训练时只需49.57M的可训练参数。推理过程在1024×768分辨率下仅需不到8G的显存,对电脑配置要求较低,个人电脑也能轻松运行。
- 高分辨率支持:支持高分辨率操作,能够生成高质量的虚拟试穿图像。
- 高度还原细节:能够高度还原不同模特的姿势动作、面部表情以及不同体型的细节,同时保留服装的褶皱、纹理、LOGO和版型等细节。
- 多任务、多品类支持:不仅支持传统的平铺服装图到人物的换装,还支持上衣、裤子、裙子、套装等不同品类的同时换装,甚至支持人物A到人物B的随心换装。
工作流程
CatVTON的技术原理主要基于扩散模型和轻量级网络结构。以下是其核心技术细节:
- 轻量级网络结构:CatVTON采用轻量级的网络结构,总参数量为899.06M。这种设计大大降低了模型的复杂度,使其在普通硬件上也能高效运行。
- 参数高效训练:CatVTON仅需49.57M的可训练参数,显著提高了训练效率。这意味着在训练过程中,所需的计算资源较少,训练速度更快。
- 简化推理过程:在1024×768分辨率下,推理过程仅需不到8G的显存。这使得CatVTON能够在配置较低的个人电脑上运行。
- 拼接策略:CatVTON通过在输入上将人物和服装在通道维度进行拼接(Concatenate),有效融合人体、服装和背景信息。这种方法不仅简化了模型结构,还提高了生成结果的质量和稳定性。
- 无额外网络模块:CatVTON摆脱了对额外的ReferenceNet的依赖,跳过了对图像虚拟试衣来说没有显著帮助的文本交叉注意力。同时,也不需要任何额外的图像编码器来辅助生成。
这些技术创新使得CatVTON在保持高质量输出的同时,大幅降低了计算资源需求,适用于电商平台、时尚设计、个人造型顾问等多种应用场景。
上手测试效果展示:
这个是我自己测试的效果:
换上湖人的队服(手部这块处理的很合理)
换上裙子,细节处理也很好
用虚拟人物测试了一下(效果也很完美)
如何安装
这次的实现效果,最主要的取决于一个大神整理的一个叫做CatVTON的节点,但这个节点的安装和所需要依赖的环境太过于严苛,而且很容易造成和其他环境的冲突,于是有人又基于做了一个叫做CatVTON_Wrapper的节点,完美的解决以上的问题,而且整个工作流非常简单,如下:
github节点地址:https://github.com/chflame163/ComfyUI_CatVTON_Wrapper?tab=readme-ov-file
安装步骤:
1)安装此节点的依赖包,可以在Manager里安装,也可以在\ComfyUI\custom_nodes里直接通过Git clone安装;
git clone https://github.com/chflame163/ComfyUI_CatVTON_Wrapper.git
2)安装此节点所需要的依赖环境;在刚才已经克隆好的文件目录下,如:ComfyUI\custom_ Nodes\ComfyUI_CatVTON_Wrapper中;通过命令行安装依赖文件;前面的… 是你的ComfyUI的Python文件夹;
..\..\..\python_embeded\python.exe -s -m pip install -r requirements.txt
3)下载所需要的模型文件;这里可以在CatVTON官方地址下载,这里也给一个百度网盘的地址,下载后扔进ComfyUI\models\CatVTON 文件夹下即可
官方下载:https://github.com/Zheng-Chong/CatVTON
找到这个位置,下载即可
如何设置
当上面的一切都准备就绪后,我们就可以搭建工作流,然后开始进行换服装的相关操作了;具体的图像和参数设置如下:
(第一次启动工作流的时候,要安装一些依赖的模型文件,大概10多分钟左右)
image: The input image. image:输入图片。mask:输入图片的蒙版,蒙版范围内的服装将被重绘。refer_image:重新绘制服装的参考图像。mask_grow:蒙版扩展的大小。如果重绘服装样式不正确,请尝试调整此值。mixed_precision:可以选择 fp32、fp16、bf16,模型将在所选数据类型下运行。seed:sampler 的随机种子。steps:sampler 的步数。cfg:扩散模型的 cfg 强度。
- 如果生成的遮罩预览效果不好,可以适当的调整阈值,越低识别精度越模糊,但也适合一些不好识别的场景;越清楚的图0.3的阈值就可以了;
- 如果换装效果不理想,也可以适当的调整mask_grow这个值,越大覆盖的服装范围越大;
现在就可以玩起来了,我们用这个工作流再做几张好玩的效果:
让马斯克穿上周鸿祎的红衣大炮战甲
马斯克也可以雍容富贵一把
数据统计
相关导航

EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。

Cherry Studio
Cherry Studio 是一个支持多模型服务的AI桌面客户端,支持 Windows、macOS 和 Linux,未来还将支持移动端。用户可以通过Cherry Studio无缝集成多种大型语言模型 (LLM),包括 OpenAI、Anthropic 和 Gemini 等,甚至本地部署的模型,确保数据隐私和安全。

Seed-TTS
Seed-TTS是由字节跳动开发的一系列大规模自回归文本到语音(TTS)模型。它能够生成高度自然、与人类语音几乎无法区分的语音。这个模型特别擅长学习语音上下文、说话人相似度和自然度等方面的特征,从而产生质量极高的语音输出。

Outfit Anyone
Outfit Anyone是一种虚拟试穿技术,它可以让用户在照片上穿上任何衣服。它是阿里巴巴集团智能计算研究所开发的一个创新项目,利用先进的人工智能和机器学习技术,提供高质量和细节一致的虚拟试穿效果。它可以适应不同的姿势和身材,甚至可以在动漫角色上试穿服装。

神力霓裳
神力霓裳是阿里大文娱发布的自研影视妆造大模型。这个模型可以根据要求快速生成影视级的各朝代服饰造型,辅助造型师进行创意设计。它主要服务于古装剧,包含造型设计、妆发设计和纹样设计三大功能。

百度智能云千帆
百度智能云是百度多年技术沉淀打造的智能云计算品牌,致力于为客户提供全球领先的人工智能、大数据和云计算服务。凭借先进的产品、技术和丰富的解决方案,全面赋能各行业,加速产业智能化。

CrewAI
CrewAI是一个创新的框架,专为角色扮演中的AI代理提供自动化设置。它通过促进AI代理之间的合作,使得这些代理能够共同解决复杂问题。CrewAI的核心特征包括角色定制代理、自动任务委派、任务管理灵活性和流程导向。它既可以使用OpenAI的API,也可以通过Ollama使用本地的大模型来运行程序。

MagicVideo-V2
MagicVideo-V2是字节跳动公司团队开发的一款AI视频生成模型和框架。它通过集成文本到图像(Text-to-Image, T2I)模型、图像到视频(Image-to-Video, I2V)模型、视频到视频(Video to Video, V2V)模型和视频帧插值(Video Frame Interpolation, VFI)模块,以实现从文字描述到高分辨率、流畅且具有高度美学的视频的自动化生成。
暂无评论...