如您有工作需要分享,欢迎联系:aigc_to_future
作者:阶跃星辰Step1X-Image团队
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2504.17761
Git链接:https://github.com/stepfun-ai/Step1X-Edit
亮点直击
开源Step1X-Edit模型,以缩小开源与闭源图像编辑系统之间的性能差距,并推动图像编辑领域的进一步研究。 设计了一个数据生成流程来生产高质量的图像编辑数据。该流程确保数据集具有多样性、代表性且质量足够高,以支持有效图像编辑模型的开发。 开发了一个基于真实使用场景的新基准测试 GEdit-Bench,以支持更真实和全面的评估。该基准经过精心设计,反映了实际用户的编辑需求和广泛的编辑场景,从而能够对图像编辑模型进行更真实、更全面的评估。
总结速览
解决的问题
开源与闭源模型之间的性能差距:当前开源图像编辑模型(如OmniGen、ACE++)在泛化性、编辑准确性和生成质量上显著落后于闭源模型(如GPT-4o、Gemini2 Flash)。 数据质量不足:现有开源数据集(如AnyEdit、OmniEdit)的多样性和质量不足以训练出媲美闭源模型的算法。 复杂指令理解的局限性:传统扩散模型(如CLIP+T5结合方案)难以精准理解用户细微或组合式编辑指令,导致输入图像与指令对齐不足。
提出的方案
Step1X-Edit模型: 架构设计:结合多模态大语言模型(MLLM,如Qwen-VL)与DiT扩散架构,通过MLLM处理参考图像和编辑指令,生成目标图像的潜在嵌入,再通过扩散解码器输出结果。 训练策略:基于高质量文本到图像模型(如SD3、FLUX)初始化,平衡图像重建与指令跟随能力。 数据生成流水线: 构建覆盖11类常见编辑任务的大规模数据集(超100万样本),涵盖物体操作、属性修改、布局调整、风格化等真实场景。 评测基准GEdit-Bench: 基于真实用户指令设计,确保多样性和实际需求覆盖,用于客观评估模型性能。
应用的技术
多模态大语言模型(MLLM):用于语义推理和指令理解(如Qwen-VL)。 扩散模型(DiT架构):生成高质量图像,支持潜在空间条件控制。 数据合成技术:自动化生成高质量训练数据,覆盖多类别编辑任务。 模型微调方法:基于预训练文本到图像模型(如SD3)进行适配性训练,保留美学质量。
达到的效果
性能领先:在GEdit-Bench上,Step1X-Edit大幅超越现有开源基线,并接近GPT-4o等闭源模型的水平。 泛化能力:支持复杂、组合式指令编辑,在物体操作、属性修改等任务中表现优异。 开源贡献:提供高质量数据集和模型,推动透明、可复现的图像编辑研究。 用户对齐:通过真实场景评测验证模型符合实际编辑需求,提升实用性和交互直观性。
Step1X-Edit
数据创建
数据 Pipeline
现有文献中的图像编辑数据集在规模或数据质量上均存在局限。为解决这一问题,本文致力于构建一个专为图像编辑任务定制的大规模高质量数据集。
首先通过网络爬取互联网上多样化的图像编辑示例,启动数据集收集流程。通过对这些示例的深入分析,系统地将图像编辑问题划分为 11 个独立类别。这些类别旨在全面覆盖实际应用中的绝大多数图像编辑需求。下图 3 展示了这 11 个类别的概览及详细数据收集流程。
为收集包含源图像、编辑指令和目标图像的大规模高质量三元组,本文设计了一套精密的数据流水线,最终生成超过 2000 万组指令-图像三元组。经过基于多模态大语言模型(如 step-1o)和人工标注的严格筛选后,我们保留了 100 万组以上高质量三元组。下图 2 对比了现有所有编辑数据集,Step1X-Edit 在规模上全面领先。即使经过 20:1 的严格筛选,其高质量子集 Step1X-Edit-HQ 的绝对量级仍与其他数据集相当。各子任务的数据收集流程如下:
主体添加与移除:
使用 Florence-2 标注专有数据集(支持对象检测、分类等多粒度标注) 通过 SAM-2 进行分割 采用 ObjectRemovalAlpha 完成修复 编辑指令由 Step-1o 模型 和 GPT-4o 联合生成,并经人工审核确保有效性
主体替换与背景修改:
预处理步骤与主体添加/移除类似(含 Florence-2 标注和 SAM-2 分割) 使用 Qwen2.5-VL 和 Recognize-Anything Model 识别目标对象/关键词 通过 Flux-Fill 进行内容感知修复 指令由 Step-1o 自动生成,三元组经人工验证
色彩与材质修改:
在检测图像中的物体后,采用Zeodepth进行深度估计以理解物体几何结构。根据识别出的目标变换需求(如颜色或材质改变),通过ControlNet结合扩散模型生成新图像,在保持物体身份的同时改变外观属性(如纹理或颜色)。
文本修改:
针对文本编辑任务,区分有效与无效文本修改。使用PPOCR进行正确字符识别,配合Step-1o模型识别文本的正确与错误区域。基于此分类生成对应编辑指令,所有输出均经过人工后期处理(如手动润色文本)。
动态变化处理:
对于运动相关变换,利用Koala-36M视频数据提取帧对作为输入。通过BiRefNet和RAFT实现前景-背景分离与光流估计。具体计算前景流范数均值与背景流均值范数,确保稳健选择仅前景运动的帧对。最终由GPT-4o标注帧间运动变化作为编辑指令。
人像美化编辑:
数据来源分为两类:(a) 公开渠道获取的美化对比图,通过人脸检测和Step-1o模型评估布局与背景一致性;(b) 邀请专业编辑人员对采集数据实施美化操作。所有数据均经人工验证。
风格迁移:
根据目标视觉域分两种处理方式:对于吉卜力、水墨画或3D动漫风格,从风格化输入生成写实图像能获得更好对齐效果——提取风格化图像边缘后,使用可控扩散模型生成写实输出。反之,针对油画或像素艺术等风格,则从写实图像出发,通过相同边缘转图像流程生成风格化输出。
色调变换:
本类别聚焦全局色调调整,包括色彩分级、去雾、去雨及季节变换。主要通过算法工具与自动化滤镜模拟真实环境变化。
标注策略
为获得高质量的细粒度编辑指令-图像对,采用以下标注方案:
冗余增强标注:
针对视觉语言模型(VLM)的背景描述模糊和幻觉问题,采用多轮标注策略。将前轮标注结果作为上下文输入下一轮,通过递归优化增强语义一致性,显著缓解幻觉问题。关键信息通过重复确认强化,确保最终标注的可靠性。
风格化上下文标注:
在标注过程中,为标注员(或模型)提供大量风格对齐的示例作为参考。这些示例规范了标注的语调、结构和粒度,确保数据集标注格式的一致性。
高效成本流程:
为平衡标注成本与质量,先使用GPT-4o执行上述标注流程,再利用标注结果微调内部Step1o模型,以更经济的方式扩展大规模数据集标注。
双语标注(中英):
所有标注均以中英双语进行,既提升多语言群体的可用性,也为多语言模型训练评估奠定基础。
方法论
如下图4所示,我们的算法包含三个核心组件:多媒体大语言模型(MLLM)、连接模块和扩散Transformer(DiT)。编辑指令与参考图像首先输入MLLM(如Qwen-VL),结合系统前缀通过单次前向传播处理,使模型捕获指令与视觉内容的语义关联。为聚焦编辑任务相关语义要素,选择性丢弃前缀相关的token嵌入,仅保留与编辑指令直接对齐的嵌入,确保后续处理精确针对用户需求。
提取的嵌入随后输入轻量级连接模块(如token优化器),将嵌入重组为更紧凑的文本特征表示。该优化特征将替换下游DiT网络(如FLUX)中T5编码器生成的原始文本嵌入。此外,计算Qwen所有输出嵌入的均值,通过线性层投影生成全局视觉引导向量,使图像编辑网络能利用Qwen增强的语义理解能力,实现更精准的上下文感知编辑。
为有效训练token优化器并实现跨模态条件控制,受FLUX-Fill的token拼接机制启发,增强模型对对比视觉上下文的推理能力。训练时,目标图像与参考图像同时输入系统:目标图像经VAE编码后添加高斯噪声以提升泛化性,潜在表示线性投影为图像token;参考图像则直接编码投影。两组图像token沿长度维度拼接形成双倍长度的融合特征作为最终视觉输入。
采用联合学习策略同步优化连接模块与下游DiT,两者均加载内部Qwen和DiT文生图模型的预训练权重以促进收敛与性能迁移。学习率设为1e−5以平衡训练稳定性与收敛速度。
通过整合结构化语言引导、token级视觉条件与强大预训练骨干,我们的方法显著提升了系统在执行多样化用户指令时实现高保真、语义对齐的图像编辑能力。
基准测试与评估
GEdit(真实编辑)基准
为全面评估图像编辑模型的性能,我们构建了名为 GEdit-Bench(真实编辑基准)的新基准。该基准的核心目标是通过收集真实用户编辑需求实例,检验现有算法能否满足实际应用场景。具体而言,我们从Reddit等互联网平台采集了超过1000条用户编辑指令,并人工将其分类为11个类别。为确保基准多样性,本文筛除了意图重复的指令,最终获得606个测试样本,所有参考图像均来自真实案例,使其更具实际应用价值。
为保护隐私,本文对所有用户上传图像实施了严格的去标识化流程(如下图5所示)。针对每张原始图像,通过多引擎反向搜索获取视觉与语义匹配的公开替代图像;若无法获取,则通过调整编辑指令保持原始意图的忠实性。这一方法既确保了数据伦理合规性,又保留了评估图像编辑模型所需的核心特征。
实验结果
GEdit-Bench评估
基于该基准,本文评估了包括开源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)和闭源模型(GPT-4o、豆包、Gemini2 Flash)在内的多种算法。采用 VIEScore 的三项指标:
SQ(语义一致性):编辑结果与指令的匹配度(0-10分) PQ(感知质量):图像自然度与伪影情况(0-10分) O(综合得分):基于前两项计算
自动评估使用当前最强的 GPT-4.1 多模态大模型,同时纳入开源模型 Qwen2.5-VL-72B 的结果以确保可复现性。为全面测试多语言能力,每个样本均配对了中英文指令:
GEdit-Bench-EN:评估所有模型 GEdit-Bench-CN:仅测试支持中文的闭源系统
针对闭源模型(如GPT-4o)因安全策略拒绝部分指令的情况,我们报告两类测试集结果:
交集子集:所有模型均成功返回结果的样本 全集:基准中所有样本(仅统计模型成功生成的案例)
如下图6所示,Step1X-Edit 在11个评估维度上全面超越开源模型。与闭源模型对比中,其在风格迁移、色彩修改等任务上优于Gemini2 Flash,甚至超过GPT-4o。下表2显示,Step1X-Edit显著领先OmniGen等开源方案,并与Gemini2 Flash、豆包等闭源模型性能相当。下表3进一步表明,在中文指令测试集(GEdit-Bench-CN)中,Step1X-Edit表现稳定,部分指标超越Gemini2和豆包。
这些结果证明了我们的模型在统一架构下实现全维度优异性能,且无需依赖编辑掩码。下图7与图8分别展示了中英文指令的编辑效果示例。
用户调研
为评估图像编辑结果的主观质量,我们在GEdit-Bench基础上开展了全面的用户偏好研究。共招募55名参与者对四种算法(Gemini2 Flash、豆包、GPT-4o及Step1X-Edit)的输出结果进行排序。评估采用双盲主观测试设计,以最大限度减少偏见并确保公平性。
参与者使用五级质量量表(从"极差"到"极佳")对编辑结果评分。为与VIEScore等定量指标保持一致对比,我们将定性评级转换为数值分数:极差=2、较差=4、一般=6、良好=8、极佳=10。针对每项编辑任务,计算所有参与者的平均偏好分数,最终通过所有任务得分的均值汇总各方法整体表现。
下表4与图9所示结果表明,Step1X-Edit展现出显著优势。我们的方法在主观质量上与其它前沿方案相当,进一步验证了其生成视觉愉悦且符合用户偏好编辑结果的能力。值得注意的是,Gemini2 Flash因在测试样本中展现出极强的身份保持特性而获得极高用户偏好分——这一特性更受调研参与者青睐。
结论
本报告提出了一种名为Step1X-Edit的全新通用图像编辑算法,该算法开源以推动图像编辑领域的创新与研究。为有效训练模型,设计了一套创新的数据生成流程,能够大规模生成高质量的三元组编辑数据(包含参考图像、编辑指令及对应目标图像)。基于该数据集,通过将多模态大语言模型与基于扩散模型的图像解码器无缝融合,训练出Step1X-Edit模型。
在自建的GEdit-Bench基准测试中,该算法以显著优势超越现有开源图像编辑方案。实验表明,Step1X-Edit不仅实现了跨任务的高保真编辑效果,其统一架构还消除了传统方法对掩码输入的依赖,为图像编辑技术提供了新的研究范式。
参考文献
[1] Step1X-Edit: A Practical Framework for General Image Editing
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论