AI I024: 一句话开启高效图像编辑新时代！TeleAI SmartFreeEdit，打造图像编辑新方案，解决推理指令与分割难题。

2025年7月12日星期六

一句话开启高效图像编辑新时代！TeleAI SmartFreeEdit，打造图像编辑新方案，解决推理指令与分割难题。

TeleAI 推出了一个图像理解编辑修复模型 SmartFreeEdit，用来解决图像编辑中推理指令和分割的挑战。

TeleAI 推出了一个图像理解编辑修复模型 SmartFreeEdit，用来解决图像编辑中推理指令和分割的挑战，从而提升 AI 编辑的实用性。该方法可以有效地处理一些语义编辑操作，包括添加、移除、更改对象、更改背景和全局编辑。

论文介绍

图像编辑领域的最新进展利用大规模多模态模型实现了直观、自然的指令驱动交互。然而，传统方法仍然面临重大挑战，尤其是在空间推理、精确区域分割和保持语义一致性方面，尤其是在复杂场景中。为了克服这些挑战，论文推出了 SmartFreeEdit，这是一个新颖的端到端框架，它将多模态大型语言模型 (MLLM) 与超图增强生成相结合。在 Reason-Edit 基准测试中进行的大量实验表明，SmartFreeEdit 在多个评估指标（包括分割准确率、指令遵循度和视觉质量保持）方面超越了当前最先进的方法，同时解决了局部信息聚焦问题，并提高了编辑图像的全局一致性。

方法概述

用于推理复杂场景的基于指令的编辑的 SmartFreeEdit 架构概述。SmartFreeEdit 由三个关键组件组成：

MLLM 驱动的提示器，将指令分解为编辑对象、类别和目标提示。
推理分割将提示转换为推理查询并生成推理掩码。
基于修复的图像编辑器，使用超图计算模块增强对全局图像结构的理解，从而实现更准确的编辑。

编码器中用于图像修复的超图模块的架构建议。蒙版图像经过卷积层、残差块和下采样块处理，然后由超图模块通过超图卷积（HyPConv）聚合上下文信息。最终的潜在分布用于图像修复。

实验结果

在 Reaon-Edit 平台上，论文将 SmartFreeEdit 与之前基于指令的图像编辑方法进行了定性比较，这些方法包括 InstructPix2Pix (IP2P)、InstructDiffusion(IDiff)、MagicBrush、BrushEdit、SmartEdit(13B) 以及最新的 Gemini 2.0 Flash。无掩膜方法不需要额外的掩膜输入，以这些使用相同指令的方法作为基准进行比较，该方法在复杂场景中展现了卓越的编辑能力。