BrushNet是腾讯PCG和香港中文大学联合共同提出一个基于扩散模型的文本引导图像修复模型。它采用了独特的双分支结构来处理被遮挡的图像特征和噪声潜变量,极大地减轻了模型的学习负担。此外,BrushNet能够在任何预训练的扩散模型上即插即用,提供了密集的像素级控制,使其非常适合图像修复任务。
具体来说,BrushNet的设计包括两个关键的洞见:
- 将蒙面图像特征和噪声潜伏分开处理,减少了模型的学习负担;
- 通过对整个预训练模型进行密集的每像素控制,增强了其适用于图像修复任务的能力。
项目相关地址:
- 项目主页:https://tencentarc.github.io/BrushNet/
- github:https://github.com/TencentARC/BrushNet
- 技术论文:https://arxiv.org/pdf/2403.06976
- ComfyUI-BrushNet:https://github.com/nullquant/ComfyUI-BrushNet
主要功能特点
- 即插即用:BrushNet可以直接嵌入到任何预训练的扩散模型中,无需对模型进行重大修改或重新训练。
- 双分支结构:它采用了一个独特的双分支结构,将蒙面图像特征和噪声潜变量分开处理,这样做可以减轻模型的学习负担,并提高修复质量。
- 密集的像素级控制:BrushNet提供了密集的每像素控制,这意味着用户可以精细调整图像的每个像素,以获得更好的修复效果。
- 图像修复:它专门设计用于图像修复任务,能够处理各种复杂的蒙版形状和图像内容,保证修复结果的连贯性和增强效果。
- BrushData和BrushBench:为了促进基于分割的修复训练和性能评估,BrushNet引入了BrushData和BrushBench,这两个工具可以帮助用户更好地训练和评估模型。
BrushNet模型架构
BrushNet 模型在给定遮罩和遮罩图像输入的情况下输出修复后的图像。
- 首先,对遮罩进行下采样以适应潜在空间的大小,并将遮罩图像输入到 VAE 编码器中以对齐潜在空间的分布。
- 然后,将噪声潜在、遮罩图像潜在和下采样遮罩作为 BrushNet 的输入进行连接。从 BrushNet 提取的特征在零卷积块后逐层添加到预训练的 UNet 中。去噪后,生成的图像和遮罩图像使用模糊遮罩进行混合。
BrushNet模型架构
BrushNet模型ComfyUI体验
当前社区已有ComfyUI插件支持BrushNet模型的体验了,插件地址为:https://github.com/nullquant/ComfyUI-BrushNet。
1、首先通过ComfyUI插件管理器搜索ComfyUI-BrushNet,并安装插件。
2、下载对应模型,并放置在ComfyUI/models/inpaint目录下。如果需要使用PowerPaint,则还需要获取 SD1.5 文本编码器模型 model.fp16.safetensors。它应该放置在您的 models/clip 文件夹中。下载地址为:https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main/text_encoder
4、导入工作流,并重启ComfyUI。