2024年7月3日星期三

电商领域利器来了!港大&阿里提出MimicBrush,可模仿参考图进行零样本图像编辑。


阿里和港大提出的MimicBrush可以通过对参考图模仿进行零样本图像编辑。将一张图片的某一部分融合到领一张图片上去。用在电商商品展示上或者单纯的图片编辑和内容迁移很有用。从官方演示来看效果也很好。

MimicBrush,它会随机选择视频剪辑中的两帧,遮盖其中一帧的某些区域,并学习使用另一帧的信息恢复这些被遮盖的区域。通过MimicBrush这种方式,模型基于扩散先验发展而来,能够自监督地捕捉不同图像之间的语义对应关系。

MimicBrush 产生的编辑结果多种多样,用户只需在源图像中指定要编辑的区域(即白色蒙版),并提供一个野生参考图来说明编辑后该区域的效果。模型会自动捕获它们之间的语义对应关系,并在一次执行中完成编辑。

相关链接

论文地址:https://arxiv.org/abs/2406.07547

代码地址:https://github.com/ali-vilab/MimicBrush

项目主页:https://xavierchen34.github.io/MimicBrush-Page

演示地址:https://huggingface.co/spaces/xichenhku/MimicBrush

论文阅读

MimicBrush:使用参考模仿进行零样本图像编辑

摘要

图像编辑是一项实用而又具有挑战性的任务,因为用户的需求多种多样,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。在这项工作中,我们提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥创造力。

具体来说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些自然参考(例如,一些在线遇到的相关图片)中汲取灵感,而不必处理参考和源之间的契合。这样的设计要求系统自动找出对参考的期望以执行编辑。为此,我们提出了一个生成训练框架,称为 MimicBrush,它从视频剪辑中随机选择两帧,屏蔽一帧的某些区域,并学习使用另一帧的信息恢复被屏蔽的区域。这样,我们的模型(从扩散先验发展而来)能够以自监督的方式捕捉单独图像之间的语义对应关系。

我们通过实验证明了我们的方法在各种测试用例下的有效性以及它相对于现有替代方案的优越性。我们还构建了一个基准以促进进一步的研究。

方法

MimicBrush 的训练过程。

首先,我们从视频序列中随机采样两帧作为参考和源图像。然后对源图像进行遮罩处理并通过数据增强进行增强。之后,我们将源图像的噪声图像潜伏层、遮罩层、背景潜伏层和深度潜伏层输入到模拟 U-Net 中。参考图像也经过增强并发送到参考 U-Net。对双 U-Net 进行训练以恢复源图像的遮罩区域。参考 U-Net 的注意键和值与模拟 U-Net 连接起来,以协助合成遮罩区域。

实验

本地区域编辑

纹理转移

后处理细化

结论

我们提出了一种简单交互的图像编辑新形式,称为模仿编辑。在我们的设置时,用户只需要在源图像上标记编辑区域并提供参考包含所需视觉元素的图像。MimicBrush自动找到相应的参考区域完成源图像。

为了实现模仿编辑,我们充分利用了这些优势的一致性和变异性,并设计了一个自监督的训练管道,使用一帧完成另一帧的遮罩区域。MimicBrush演示令人印象深刻性能的各种编辑任务,并支持广泛的应用程序。

通过探索,我们构建了一个综合评价模仿编辑的基准。这项工作是期望为社会带来新的灵感,探索更先进的影像技术生成和编辑。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

复旦开源Hallo:只需输入一段音频和一张照片就可以让人物说话。

之前和大家介绍过阿里的EMO和腾讯的AniPortrait,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。最长时间可达1分30秒左右。 感兴趣的小伙伴可以点击下面链接阅读。 阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI...