本文介绍小红书开源的通用图像编辑模型FireRed-Image-Edit 1.1,该模型基于1.6亿训练样本,支持通过文字指令精准编辑图片,具备老照片修复、虚拟试穿、多元素融合等功能。模型在多项基准测试中超越开源方案,编辑时仅需30GB显存和约4.5秒耗时,适合AI开发者、图像处理研究者和内容创作者参考与应用。
Tags:
一句话总结:输入一张图片+一段文字指令 → 精准编辑图像,FireRed-Image-Edit 1.0 用1.6亿训练样本+多阶段训练策略,在多个基准测试中超越现有开源方案,甚至媲美闭源商业系统。
图像编辑是AIGC领域的核心应用场景之一,从简单的物体移除到复杂的风格迁移,用户需求五花八门。但当前开源工具普遍存在这些问题:
编辑精度不够,指令理解偏差大 编辑后图像质量下降,出现伪影或失真 文本编辑能力弱,字体样式难以保持 多元素融合困难,编辑结果不自然 指令式编辑正是为解决这些问题而生——用户只需描述"想要什么",模型自动完成编辑,无需复杂的参数调整。今天介绍的由小红书开源的 FireRed-Image-Edit 1.0 是一款通用图像编辑模型,可在各种场景下提供高保真度和一致的编辑效果。该模型构建了1.6B规模训练语料,提出多阶段训练框架,在REDEdit-Bench等基准测试中全面超越现有开源方案,成为图像编辑领域的新标杆。
效果展示
主要特点
强大的编辑性能:FireRed-Image-Edit 提供领先的开源结果,具有准确的指令遵循性、高图像质量和一致的视觉连贯性。 原生编辑功能:直接基于文本到图像的基础模型构建,并具备编辑功能。 文本样式保留:高度保真地保持文本样式,性能可与闭源解决方案相媲美。 照片修复:高质量的老照片修复和增强。 多图编辑:灵活编辑多张图像,例如虚拟试穿。
相关链接
源码:https://github.com/FireRedTeam/FireRed-Image-Edit 论文:https://arxiv.org/abs/2602.13344 模型:https://www.modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.1 体验:https://www.modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.1
论文介绍
FireRed-Image-Edit-1.1 是小红书 Super Intelligence 团队在图像生成与编辑领域的又一力作。该模型在继承前作优秀基因的基础上,通过一系列技术创新和优化,实现了在处理ID一致性编辑、多元素融合、人像美妆、字体风格参考等方面的显著提升。同时,模型还支持训练、部署优化全家桶,仅需4.5秒耗时和30GB显存即可完成高质量图像编辑任务。
方法概述
架构概述。 数据管道始于桶采样器,它根据任务类别和宽高比对输入序列进行组织,从而高效地处理可变分辨率。接下来是整理/打乱/删除机制,该机制通过随机排列或省略图形标识符来增强文本提示,以提高鲁棒性。核心模型采用 MMDiT 模块处理多模态特征,其中视觉输入由 VAE 编码器编码,多模态条件(参考图像和文本指令)由 Qwen VL 处理。为了确保高保真度生成,训练过程引入了一致性/相似性损失;该机制从预测图像和真实图像中提取感兴趣区域 (RoI),并通过共享图像编码器来最小化身份差异。
数据引擎概述。数据生成引擎通过三种前向构建策略生成成对的图像编辑样本。
指令控制:利用基于 VLM 发现和辅助元数据的指令模板和编辑目标词典,合成专家模型。 结构化控制:利用从感知模块提取的结构先验信息(例如掩码和姿态关键点),以精确的控制信号引导专家模型。 无模型模板合成:包含预定义的 3D 模板、布局模板和算法滤波器等方法,以实现可控且确定性的生成。该流程设计为可迭代,支持复杂的多步骤编辑。
实验
ID一致性:在复杂编辑任务中,人物主体识别准确率显著提升。 编辑准确性:多元素融合、人像美妆等任务中,编辑结果与用户指令高度一致。 视觉效果:编辑后的图像在细节保留、色彩还原等方面表现出色,视觉效果自然逼真。
结论
FireRed-Image-Edit-1.1 通过一系列技术创新和优化,实现了在图像编辑领域的重大突破。该模型不仅在编辑性能上显著提升,更在工程优化和T2I骨干网络原生编辑能力方面展现出强大实力。其开源的资源和完善的技术支持,为图像编辑领域的研究者和开发者提供了宝贵的学习和参考平台。未来,随着技术的不断进步和应用场景的持续拓展,FireRed-Image-Edit系列模型有望在图像编辑领域发挥更加重要的作用。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论