阶跃星辰公司近期宣布开源自家图像编辑领域模型Step1X-Edit,它使用多模态大语言模型处理参考图像和用户的
阶跃星辰公司近期宣布开源自家图像编辑领域模型Step1X-Edit,它使用多模态大语言模型处理参考图像和用户的编辑指令,提取潜在嵌入并与扩散图像解码器集成以获得目标图像。Step1X-Edit凭借其强大的功能,能够应对多种高频图像编辑需求,包括文字替换、风格迁移、材质变换、人物修图等11种常见任务类型,几乎覆盖了用户在进行图像编辑时的所有需求。
主要特点
自然语言编辑:支持使用自然语言指令进行图像编辑,如"美颜"、"换个背景"或"改成像素风格"等; 开源可商用:基于Apache 2.0许可证发布,可自由商用; 灵活的硬件需求:提供FP8量化版本,降低显存需求; 社区支持:已有多个社区版本,包括FP8量化模型。
相关链接
论文:https://arxiv.org/pdf/2504.17761 代码:http://github.com/stepfun-ai/Step1X-Edit 数据集:https://huggingface.co/datasets/stepfun-ai/GEdit-Bench 试用:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit
论文介绍
近年来,图像编辑技术取得了显著而快速的发展。近期发布的 GPT4o 和 Gemini2 Flash 等尖端多模态模型展现了极具潜力的图像编辑能力。 这些模型展现出令人印象深刻的能力,能够满足绝大多数用户驱动的编辑需求,标志着图像处理领域的重大进步。然而,开源算法与这些闭源模型之间仍然存在巨大差距。为此,我们引入了一个最先进的图像编辑模型 Step1X-Edit,旨在提供与 GPT-4o 和 Gemini2 Flash 等闭源模型相当的性能。
论文采用多模态 LLM 来处理参考图像和用户的编辑指令。提取潜在嵌入并将其与扩散图像解码器集成以获得目标图像。为了训练该模型构建了一个涵盖 11 个编辑任务的数据生成流程,以生成高质量的数据集。为了进行评估作者开发了 GEdit-Bench,这是一个基于真实用户指令的全新基准测试。在 GEditBench 上的实验结果表明,Step1X-Edit 的性能显著优于现有的开源基线,并接近领先的专有模型,从而为图像编辑领域做出了重大贡献。
基准
论文发布了GEdit-Bench作为一个新的基准测试集,它基于实际使用情况而开发,旨在支持更真实、更全面的评估。该基准测试集经过精心设计,能够反映用户的实际编辑需求和广泛的编辑场景,从而能够对图像编辑模型进行更真实、更全面的评估。基准测试集的部分结果如下所示:
实验结果
结论
论文提出了一种名为Step1X-Edit的全新通用图像编辑算法,该算法即将公开发布,以促进图像编辑社区的进一步创新和研究。为了有效地训练该模型提出了一种新的数据生成流程,可以生成大规模高质量的图像编辑三元组,每个三元组由参考图像、编辑指令和对应的目标图像组成。基于收集到的数据集,通过将强大的多媒体大型语言模型 (MML) 与基于扩散的图像解码器无缝集成,训练了 Step1X-Edit 模型。根据在 GEdit-Bench 上收集到的评估数据,提出的算法的性能显著优于现有的开源图像编辑算法。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论