2025年5月5日星期一

AI界新王炸,输入提示词秒变PS大神?阶跃星辰开源图像编辑模型Step1X-Edit:19B参数对标GPT-4o。

阶跃星辰公司近期宣布开源自家图像编辑领域模型Step1X-Edit,它使用多模态大语言模型处理参考图像和用户的




阶跃星辰公司近期宣布开源自家图像编辑领域模型Step1X-Edit,它使用多模态大语言模型处理参考图像和用户的编辑指令,提取潜在嵌入并与扩散图像解码器集成以获得目标图像。Step1X-Edit凭借其强大的功能,能够应对多种高频图像编辑需求,包括文字替换、风格迁移、材质变换、人物修图等11种常见任务类型,几乎覆盖了用户在进行图像编辑时的所有需求。

图片

主要特点

  • 自然语言编辑:支持使用自然语言指令进行图像编辑,如"美颜"、"换个背景"或"改成像素风格"等;
  • 开源可商用:基于Apache 2.0许可证发布,可自由商用;
  • 灵活的硬件需求:提供FP8量化版本,降低显存需求;
  • 社区支持:已有多个社区版本,包括FP8量化模型。

相关链接

  • 论文:https://arxiv.org/pdf/2504.17761
  • 代码:http://github.com/stepfun-ai/Step1X-Edit
  • 数据集:https://huggingface.co/datasets/stepfun-ai/GEdit-Bench
  • 试用:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit图片

论文介绍

Step1X-Edit: 开源AI图像编辑框架
Step1X-Edit: 开源AI图像编辑框架

近年来,图像编辑技术取得了显著而快速的发展。近期发布的 GPT4o 和 Gemini2 Flash 等尖端多模态模型展现了极具潜力的图像编辑能力。 这些模型展现出令人印象深刻的能力,能够满足绝大多数用户驱动的编辑需求,标志着图像处理领域的重大进步。然而,开源算法与这些闭源模型之间仍然存在巨大差距。为此,我们引入了一个最先进的图像编辑模型 Step1X-Edit,旨在提供与 GPT-4o 和 Gemini2 Flash 等闭源模型相当的性能。

论文采用多模态 LLM 来处理参考图像和用户的编辑指令。提取潜在嵌入并将其与扩散图像解码器集成以获得目标图像。为了训练该模型构建了一个涵盖 11 个编辑任务的数据生成流程,以生成高质量的数据集。为了进行评估作者开发了 GEdit-Bench,这是一个基于真实用户指令的全新基准测试。在 GEditBench 上的实验结果表明,Step1X-Edit 的性能显著优于现有的开源基线,并接近领先的专有模型,从而为图像编辑领域做出了重大贡献。

Step1X-Edit 概述。Step1X-Edit 是一个开源通用编辑模型,具备全面的编辑功能,达到专有级别的性能。
Step1X-Edit 概述。Step1X-Edit 是一个开源通用编辑模型,具备全面的编辑功能,达到专有级别的性能。
数据构建管道和子任务分布。
数据构建管道和子任务分布。
Step1X-Edit 框架。Step1X-Edit 利用 MLLM 的图像理解能力来解析编辑指令并生成编辑标记,然后使用基于 DiT 的网络将其解码为图像。
Step1X-Edit 框架。Step1X-Edit 利用 MLLM 的图像理解能力来解析编辑指令并生成编辑标记,然后使用基于 DiT 的网络将其解码为图像。

基准

论文发布了GEdit-Bench作为一个新的基准测试集,它基于实际使用情况而开发,旨在支持更真实、更全面的评估。该基准测试集经过精心设计,能够反映用户的实际编辑需求和广泛的编辑场景,从而能够对图像编辑模型进行更真实、更全面的评估。基准测试集的部分结果如下所示:图片

实验结果

不同方法比较
不同方法比较
中文编辑指令的最新算法比较图。
中文编辑指令的最新算法比较图。

结论

论文提出了一种名为Step1X-Edit的全新通用图像编辑算法,该算法即将公开发布,以促进图像编辑社区的进一步创新和研究。为了有效地训练该模型提出了一种新的数据生成流程,可以生成大规模高质量的图像编辑三元组,每个三元组由参考图像、编辑指令和对应的目标图像组成。基于收集到的数据集,通过将强大的多媒体大型语言模型 (MML) 与基于扩散的图像解码器无缝集成,训练了 Step1X-Edit 模型。根据在 GEdit-Bench 上收集到的评估数据,提出的算法的性能显著优于现有的开源图像编辑算法。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


没有评论:

发表评论

效果炸裂!复制这段指令,让你的文档秒变可视化网页(附完整提示词)

零代码,复制粘贴直接上手   点击上 方 蓝字  关注艾康👆 获取更多实用 AI 工具/AI 玩法,一起 AI 创富~ 先问大家一句,你是不是也有过这样的经历? 想给自己的小项目整个酷炫的展示页,但一看到代码就头大? 或者,辛辛苦苦整理好的数据,想用更直观的方式展示出来, ...