Magic Clothing

2周前发布 3 00

Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。

收录时间:
2024-11-29
Magic ClothingMagic Clothing
Magic Clothing

Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。并且官方团队发布了在 768 分辨率上训练的模型权重,此版本中服装和文本提示的强度可以独立调整。以及支持与IP-Adapter-FaceID、ControlNet-Openpos模型一起使用,能够使用肖像和参考姿势图像作为附加条件。这个项目的目标是为图像合成提供更多的控制和灵活性,使得用户能够根据自己的需求创建更具个性化和创意的图像。

  • MagicClothing权重文件:https://huggingface.co/ShineChen1024/MagicClothing
  •  github:https://github.com/ShineChen1024/MagicClothing/tree/main
  • OOTDiffusion技术论文:https://arxiv.org/abs/2403.01779
  •  IP-Adapter-FaceID:https://huggingface.co/h94/IP-Adapter-FaceID

Magic Clothing的主要功能特点

  • 控制性:用户可以通过文本提示来控制图像合成中的服装细节,从而生成定制的、穿着特定服装的人物图像。
  • 高度可控:系统能够在生成过程中融合服装细节,实现高度可控和细粒度的图像输出。
  • 多模态支持:支持IP-Adapter-FaceID,允许使用面部图像作为额外条件,提高图像合成的个性化和准确性。
  • 模型更新:提供了不同分辨率的模型权重,如512和768分辨率,以及最新的1024分辨率版本,适用于VTON-HD和DressCode。
  • 可视化工具:提供了Gradio工具,用户可以通过这些工具来探索和使用Magic Clothing的功能。

ComfyUI_MagicClothing体验

ComfyUI_MagicClothing是MagicClothing虚拟试衣的非官方实现ComfyUI插件,但也是一款强大的ComfyUI插件,支持功能如下:

  • 通过提示生语成服装图像
  • IPAdapter FaceID 配合人脸检测和服装图像合成
  •  IPAdapter FaceID 配合 controlnet openpose 和服装图像合成
  • 支持上半身、下半身和全身模型

ComfyUI_MagicClothing插件安装

可以使用插件管理器搜索ComfyUI_MagicClothing安装,或者采用Git工具安装。

Git安装如下

在 ComfyUI 的 custom_nodes 目录下运行下列CLI命令

git clone https://github.com/frankchieng/ComfyUI_MagicClothing.git
pip install -r requirements.txt

模型下载

需要从Huggingface下载 cloth_segm.pth, magic_clothing_768_vitonhd_joint.safetensors(上半身模型), OMS_1024_VTHD+DressCode_200000.safetensors(下半身和全身模型)3个模型,并将它们放置在ComfyUI/custom_nodes/ComfyUI_MagicClothing/checkpoints 目录下。

同时,如果需要体验 ipadapterfaceid保持面部风格一致性迁移,那么还需要安装 ComfyUI_IPAdapter_plus 自定义节点。然后从IPAdapter FaceID 模型,并将它们放置在对应目录结构下。

另外,如果还想运行 controlnet openpose 部分,那么必须安装 comfyui_controlnet_aux 插件,以及下载 openpose 模型中的 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth,并将它们放置在 custom_nodes/comfyui_controlnet_aux/ckpts/lllyasviel/Annotators目录下。

还有部分模型会在运行时根据用户选项下载(如openpose模型 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth),因此需要能访问huggingface。

文件结构如下:

ComfyUI
|– models
| |– ipadapter
| | |– ip-adapter-faceid-plus_sd15.bin
| | |– ip-adapter-faceid-plusv2_sd15.bin
| | |– ip-adapter-faceid_sd15.bin
| |– loras
| | |– ip-adapter-faceid-plus_sd15_lora.safetensors
| | |– ip-adapter-faceid-plusv2_sd15_lora.safetensors
| | |– ip-adapter-faceid_sd15_lora.safetensors
|– custom_nodes
| |– ComfyUI_MagicClothing
| | |– checkpoints
| | | |– cloth_segm.pth
| | | |– magic_clothing_768_vitonhd_joint.safetensors
| | | |– OMS_1024_VTHD+DressCode_200000.safetensors

MagicClothing模型体验

01. simple workflow

02. IPAdapater FaceID workflow

03. IPAdapater FaceID chained with controlnet openpose workflow

04. full-body workflow with IPadapterFaceid

注:实践效果中对于人物面部特征保持相对弱,作者也提到很快会有人物细节更好改善版模型。目前内置模型为SD1.5模型,作者称将会尝试dreamshape8, xxmix9realistic_v40等SDXL模型。

附录

  •  github:https://github.com/ShineChen1024/MagicClothing/tree/main
  •  插件:https://github.com/frankchieng/ComfyUI_MagicClothing/tree/main

数据统计

相关导航

Mini-Gemini

Mini-Gemini

Mini-Gemini是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs),由中国香港中文大学和 SmartMore 的研究人员共同推出。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs),从2B到34B。为了增强视觉token,该框架建议在不增加视觉token数量的情况下,利用额外的视觉编码器进行高分辨率细化。同时,Mini-Gemini还构建了一个高质量的数据集,以促进精确的图像理解和基于推理的生成,从而扩大当前VLM的操作范围。
DreamTalk

DreamTalk

DreamTalk 是一个基于扩散的、以音频驱动的表达性说话头部生成框架,能够跨多种说话风格生成高质量的说话头部视频,由清华大学、阿里巴巴和华中科大共同开发。它的主要功能是通过人工智能技术让人物头像能够说话、唱歌,并保持嘴唇的同步以及模仿表情变化。这一框架能够生成高质量的动画,使人物脸部动作看起来非常真实,不仅嘴唇动作逼真,还能展现丰富的表情,使得动画更加生动。
M2UGen

M2UGen

M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型,它具备音乐生成、理解和编辑的能力。具体来说,M2UGen可以接收文字、图片、视频或音频作为输入,然后生成与之相匹配的音乐。例如,给它一段文字,如诗句或故事,它能够创作出与文字内容相应的音乐;对于图片,它能创作出匹配的音乐,让图片仿佛“动起来”;对于视频,它可以根据视频内容创作出合适的背景音乐。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...