2026年3月10日星期二

小红书开源FireRed-Image-Edit 1。1图像编辑模型:30GB显存4。5秒完成老照片修复与虚拟试穿

本文介绍小红书开源的通用图像编辑模型FireRed-Image-Edit 1.1,该模型基于1.6亿训练样本,支持通过文字指令精准编辑图片,具备老照片修复、虚拟试穿、多元素融合等功能。模型在多项基准测试中超越开源方案,编辑时仅需30GB显存和约4.5秒耗时,适合AI开发者、图像处理研究者和内容创作者参考与应用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

一句话总结:输入一张图片+一段文字指令 → 精准编辑图像,FireRed-Image-Edit 1.0 用1.6亿训练样本+多阶段训练策略,在多个基准测试中超越现有开源方案,甚至媲美闭源商业系统。

图片

图像编辑是AIGC领域的核心应用场景之一,从简单的物体移除到复杂的风格迁移,用户需求五花八门。但当前开源工具普遍存在这些问题:

  • 编辑精度不够,指令理解偏差大
  • 编辑后图像质量下降,出现伪影或失真
  • 文本编辑能力弱,字体样式难以保持
  • 多元素融合困难,编辑结果不自然图片指令式编辑正是为解决这些问题而生——用户只需描述"想要什么",模型自动完成编辑,无需复杂的参数调整。今天介绍的由小红书开源的 FireRed-Image-Edit 1.0 是一款通用图像编辑模型,可在各种场景下提供高保真度和一致的编辑效果。该模型构建了1.6B规模训练语料,提出多阶段训练框架,在REDEdit-Bench等基准测试中全面超越现有开源方案,成为图像编辑领域的新标杆。

unsetunset效果展示unsetunset

图片

主要特点

  • 强大的编辑性能:FireRed-Image-Edit 提供领先的开源结果,具有准确的指令遵循性、高图像质量和一致的视觉连贯性。
  • 原生编辑功能:直接基于文本到图像的基础模型构建,并具备编辑功能。
  • 文本样式保留:高度保真地保持文本样式,性能可与闭源解决方案相媲美。
  • 照片修复:高质量的老照片修复和增强。
  • 多图编辑:灵活编辑多张图像,例如虚拟试穿。

unsetunset相关链接unsetunset

  • 源码:https://github.com/FireRedTeam/FireRed-Image-Edit
  • 论文:https://arxiv.org/abs/2602.13344
  • 模型:https://www.modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.1
  • 体验:https://www.modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.1

unsetunset论文介绍unsetunset

图片

FireRed-Image-Edit-1.1 是小红书 Super Intelligence 团队在图像生成与编辑领域的又一力作。该模型在继承前作优秀基因的基础上,通过一系列技术创新和优化,实现了在处理ID一致性编辑、多元素融合、人像美妆、字体风格参考等方面的显著提升。同时,模型还支持训练、部署优化全家桶,仅需4.5秒耗时和30GB显存即可完成高质量图像编辑任务。

unsetunset方法概述unsetunset

图片

架构概述。 数据管道始于桶采样器,它根据任务类别和宽高比对输入序列进行组织,从而高效地处理可变分辨率。接下来是整理/打乱/删除机制,该机制通过随机排列或省略图形标识符来增强文本提示,以提高鲁棒性。核心模型采用 MMDiT 模块处理多模态特征,其中视觉输入由 VAE 编码器编码,多模态条件(参考图像和文本指令)由 Qwen VL 处理。为了确保高保真度生成,训练过程引入了一致性/相似性损失;该机制从预测图像和真实图像中提取感兴趣区域 (RoI),并通过共享图像编码器来最小化身份差异。

图片数据引擎概述。数据生成引擎通过三种前向构建策略生成成对的图像编辑样本。

  1. 指令控制:利用基于 VLM 发现和辅助元数据的指令模板和编辑目标词典,合成专家模型。
  2. 结构化控制:利用从感知模块提取的结构先验信息(例如掩码和姿态关键点),以精确的控制信号引导专家模型。
  3. 无模型模板合成:包含预定义的 3D 模板、布局模板和算法滤波器等方法,以实现可控且确定性的生成。该流程设计为可迭代,支持复杂的多步骤编辑。

unsetunset实验unsetunset

图片
图片
  • ID一致性:在复杂编辑任务中,人物主体识别准确率显著提升。
  • 编辑准确性:多元素融合、人像美妆等任务中,编辑结果与用户指令高度一致。
  • 视觉效果:编辑后的图像在细节保留、色彩还原等方面表现出色,视觉效果自然逼真。

unsetunset结论unsetunset

FireRed-Image-Edit-1.1 通过一系列技术创新和优化,实现了在图像编辑领域的重大突破。该模型不仅在编辑性能上显著提升,更在工程优化和T2I骨干网络原生编辑能力方面展现出强大实力。其开源的资源和完善的技术支持,为图像编辑领域的研究者和开发者提供了宝贵的学习和参考平台。未来,随着技术的不断进步和应用场景的持续拓展,FireRed-Image-Edit系列模型有望在图像编辑领域发挥更加重要的作用。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

智谱AutoClaw安装指南:1分钟部署本地OpenClaw智能体,无需代码与服务器

智谱发布的AutoClaw(澳龙)是一款一键下载即可使用的OpenClaw本地部署工具,无需懂代码、租服务器或额外付费。安装过程仅需登录1次、点击4个按钮、扫描1个二维码,即可在飞书等平台使用。支持预置60多个国内适用Skill、抢先体验Pony-alpha-2模型,并可将原有O...