添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
在图像编辑与生成领域,基于指令的编辑和主题驱动的生成虽有进展,但存在局限。前者依赖语言指令难捕捉细节,后者局限于具体物体组合。由香港中文大学、香港科技大学、香港大学及字节跳动提出的基于多模态指令的编辑和生成任务DreamOmni2,支持文本与图像指令,拓展至抽象概念。通过三步数据合成流程解决数据创建难题,采用索引编码等方案优化模型框架,还提出全面基准测试。实验显示 DreamOmni2 成果斐然,模型和代码即将发布,有望为该领域带来新变革。
相关链接
项目:https://pbihao.github.io/projects/DreamOmni2/index.html 试用:https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit 代码:https://github.com/dvlab-research/DreamOmni2
论文介绍
基于指令的图像编辑和主题驱动的生成领域的最新进展引起了广泛关注,但这两项任务在满足实际用户需求方面仍然存在局限性。基于指令的编辑仅依赖于语言指令,而语言指令往往无法捕捉具体的编辑细节,因此需要参考图像。与此同时,主题驱动的生成仅限于组合具体的物体或人物,而忽略了更广泛、更抽象的概念。
为了应对这些挑战,论文提出了两项新颖的任务:基于多模态指令的编辑和生成。这些任务同时支持文本和图像指令,并将范围扩展到具体概念和抽象概念,从而极大地增强了它们的实际应用。论文推出了 DreamOmni2,以应对两个主要挑战:数据创建和模型框架设计。 数据合成流程包含三个步骤:
使用特征混合方法为抽象概念和具体概念创建提取数据; 使用编辑和提取模型生成多模态基于指令的编辑训练数据; 进一步应用提取模型创建多模态基于指令的编辑训练数据。
对于该框架,为了处理多图像输入,提出了一种索引编码和位置编码移位方案,这有助于模型区分图像并避免像素混淆。此外引入了 VLM 和我们的生成/编辑模型的联合训练,以更好地处理复杂指令。此外还为这两项新任务提出了全面的基准测试,以推动其发展。实验表明, DreamOmni2 取得了令人瞩目的成果。
方法概述
DreamOmni2 训练数据构建概述。
在第 1 阶段,使用特征混合方案来利用基础模型的 T2I 功能,创建包含具体对象和抽象属性的高质量数据对。 在第 2 阶段,生成基于多模态指令的编辑数据。使用第 1 阶段的数据,我们训练一个提取模型来模拟目标图像中的对象或属性,并根据指令生成参考图像。此外,使用基于指令的编辑模型修改目标图像中提取的对象或属性,使其有所不同,从而创建源图像。这将生成从参考图像和源图像到目标图像的训练对。 在第 3 阶段,从第 2 阶段的源图像中提取对象以创建新的参考图像,形成用于从参考图像生成目标图像的训练数据。 基于多模态指令的编辑和生成训练数据的数据分布和样本。 我们的数据集全面且多样化,包括具体对象的生成和编辑, 以及抽象属性(例如局部属性和全局属性)。
实验结果
基于多模态指令的编辑的视觉比较。与其他竞争方法甚至闭源商业模型(GPT-4o 和 Nano Banana)相比,DreamOmni2 展现出更准确的编辑结果和更好的一致性。
基于多模态指令的编辑的定量比较。使用 Gemini和豆包分别评估不同模型在具体对象和抽象属性上的编辑成功率。此外,"人工"指的是评估所有模型编辑成功率的专业工程师。
基于多模态指令的生成的视觉比较。我们的 DreamOmni2 显著优于当前的开源模型,并实现了与闭源商业模型(GPT-4 和 Nano Banana)相当的生成结果。
总结
当前基于指令的图像编辑依赖语言,但语言难精准描述编辑需求,需参考图像;主题驱动生成模型多聚焦具体对象,难基于抽象概念生成图像。为此,论文提出多模态基于指令的编辑和生成新任务,其参考涵盖具体对象与抽象属性。新任务面临训练数据和多图像输入框架两大挑战,通过三阶段数据合成流程解决数据难题,以索引编码和位置编码移位方案优化框架,还采用联合训练提升模型理解复杂指令的能力。大量实验表明,DreamOmni2 性能表现优异。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论