TeleAI 推出了一个图像理解编辑修复模型 SmartFreeEdit,用来解决图像编辑中推理指令和分割的挑战。
TeleAI 推出了一个图像理解编辑修复模型 SmartFreeEdit,用来解决图像编辑中推理指令和分割的挑战,从而提升 AI 编辑的实用性。该方法可以有效地处理一些语义编辑操作,包括添加、移除、更改对象、更改背景和全局编辑。
相关链接
论文:https://arxiv.org/abs/2504.12704 代码:https://github.com/smileformylove/SmartFreeEdit
论文介绍
图像编辑领域的最新进展利用大规模多模态模型实现了直观、自然的指令驱动交互。然而,传统方法仍然面临重大挑战,尤其是在空间推理、精确区域分割和保持语义一致性方面,尤其是在复杂场景中。为了克服这些挑战,论文推出了 SmartFreeEdit,这是一个新颖的端到端框架,它将多模态大型语言模型 (MLLM) 与超图增强生成相结合。在 Reason-Edit 基准测试中进行的大量实验表明,SmartFreeEdit 在多个评估指标(包括分割准确率、指令遵循度和视觉质量保持)方面超越了当前最先进的方法,同时解决了局部信息聚焦问题,并提高了编辑图像的全局一致性。
方法概述
用于推理复杂场景的基于指令的编辑的 SmartFreeEdit 架构概述。SmartFreeEdit 由三个关键组件组成:
MLLM 驱动的提示器,将指令分解为编辑对象、类别和目标提示。 推理分割将提示转换为推理查询并生成推理掩码。 基于修复的图像编辑器,使用超图计算模块增强对全局图像结构的理解,从而实现更准确的编辑。
编码器中用于图像修复的超图模块的架构建议。蒙版图像经过卷积层、残差块和下采样块处理,然后由超图模块通过超图卷积(HyPConv)聚合上下文信息。最终的潜在分布用于图像修复。
实验结果
在 Reaon-Edit 平台上,论文将 SmartFreeEdit 与之前基于指令的图像编辑方法进行了定性比较,这些方法包括 InstructPix2Pix (IP2P)、InstructDiffusion(IDiff)、MagicBrush、BrushEdit、SmartEdit(13B) 以及最新的 Gemini 2.0 Flash。 无掩膜方法不需要额外的掩膜输入,以这些使用相同指令的方法作为基准进行比较,该方法在复杂场景中展现了卓越的编辑能力。
定量比较 SmartFreeEdit 与以往图像修复方法在自然图像中的表现。比较对象包括混合扩散 (BLD)、稳定扩散修复 (SDI)、高清绘画 (HDP)、控制网络修复 (CNI) 以及 BrushEdit 中优化的 BrushNetX。
结论
论文提出了一个新颖的框架SmartFreeEdit,它利用 MLLM 全面解读用户指令,同时保留图像中的空间关系和上下文语义,无需进行迭代掩码计算,并采用基于 HyperGraph 的推理来增强区域编辑的内容。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论