2025年10月28日星期二

AI 图像生成新宠!StepFun 开源 14B 参数自回归模型 NextStep - 1,图像生成与图像编辑一键搞定!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

在科技飞速发展的当下,AI 图像生成领域正经历着翻天覆地的变化。StepFun 推出的 NextStep - 1 模型堪称行业"黑马",它打破传统,为自回归模型在图像生成领域开辟全新道路。这一拥有 140 亿参数的纯自回归模型,不仅实现了堪比顶尖扩散系统的图像生成质量,还具备强大的图像编辑能力,能轻松应对各种日常自然语言指令下的编辑操作。下面就让我们一起深入了解这款突破性模型。

NextStep-1 突破了基于文本创建和编辑图像的极限。NextStep-1 的突出之处在于它为自回归 (AR) 模型开辟了一条新道路,实现了堪比最强大的基于扩散的系统的最先进成果。

图片

NextStep-1 不仅提供高保真文本转图像生成功能,还提供强大的图像编辑功能。它支持各种编辑操作,例如添加/删除对象、修改背景、更改操作和风格转换,并且能够理解日常自然语言指令,从而实现灵活且自由形式的图像编辑。

图片

unsetunset图像生成的新方法unsetunset

长期以来,自回归模型在语言任务中取得了显著的成功,但在图像生成方面却举步维艰。之前的模型要么必须添加繁重的外部扩散模块,要么通过矢量量化 (VQ) 将图像转换为离散的(通常是有损的)标记。

NextStep-1 开辟了一条新道路。这个拥有 14B 参数的纯自回归模型,凭借极其轻量级的流匹配头,实现了最先进的图像生成质量,并直接处理连续图像标记,从而保留了视觉数据的全部丰富性,而不是将其压缩成有限的离散视觉词汇集。图片NextStep-1 的底层架构采用经过特殊调优的自动编码器,将图像分词为连续的、逐块的潜在标记,并将它们与文本标记一起进行序列化。因果 Transformer 主干网络统一处理此序列,而 157M 参数的流匹配 [14] 头则直接预测视觉位置的下一个连续图像标记。我们发现这种统一的下一个标记范式简单易懂、可扩展,并且足以提供高保真、细节丰富的图像。

unsetunset模型效率unsetunset

关键见解和发现

构建一个纯粹的图像自回归模型绝非易事。正因如此,我们不仅要为社区发布一个强大的基础模型,还要分享我们在此过程中获得的关键洞见。我们希望这些经验能够阐明自回归在图像生成中的真正工作原理。

因果变换器可以成为真正的艺术家

长期以来,研究人员一直质疑因果变换器是否能够真正独立处理自回归图像生成——无需依赖矢量量化或将大部分生成过程转移给重量级的外部扩散器。通过 NextStep-1,我们证明,只要采用正确的图像标记和训练策略,LLM 风格的变换器就可以成为主要的创意引擎。

图片

为了探究这一点,论文测试了参数规模差异显著的流匹配头(40M、157M 和 528M),发现图像质量基本不受头尺寸的影响。这一令人着迷的发现有力地表明,Transformer 主干正在承担重任,驱动核心生成模型和高级推理。在 NextStep-1 中,流匹配头的功能更像是一个轻量级采样器,将 Transformer 丰富的上下文预测转换为最终的图像块。

Tokenizer 是稳定性和质量的关键

在处理连续图像标记时,标记器是自回归流程中稳定性和视觉保真度的核心。在使 NextStep-1 如此高效的"秘诀"中,有两个关键见解尤为突出:

通道级归一化带来稳定性:将无分类器引导 (CFG) 规模推得足够高时,许多模型开始出现奇怪的伪影——纹理扭曲、鬼影和颜色不一致。我们的研究结果表明,罪魁祸首在于生成的标记中的统计漂移。解决方法简单而有效:在标记生成器内部应用通道级归一化。这可以在高 CFG 下保持标记统计数据的稳定,即使引导旋钮调到最高,NextStep-1 也能生成清晰、无伪影的图像。

图片噪声越多,质量越高:与直觉相反,我们发现,在标记器训练过程中添加更多噪声(即使会增加重建误差)最终会提高自回归模型生成的图像质量。我们认为,此操作可以使潜在空间更加稳健且分布均匀,从而为自回归模型提供一个更清晰、更易于学习的起点。

基准性能

NextStep-1 在具有挑战性的基准测试中表现出色,涵盖了广泛的功能。

提示跟踪:在GenEval上,NextStep-1 取得了0.63(不使用 self-CoT)和0.73(使用 self-CoT)的竞争分数。在测试组合能力的基准GenAI-Bench上,NextStep-1在高级提示上的得分为0.67 ,在基本提示上的得分为0.88,展示了其强大的理解和渲染复杂场景的能力。在使用长而详细的提示的DPG-Bench上,NextStep-1 获得了85.28分,证实了其在处理复杂用户请求方面的可靠性。

图片

世界知识:在WISE[18]基准测试中,该基准评估了模型将现实世界知识整合到图像中的能力,NextStep-1 的总得分为0.54,优于大多数扩散模型和所有其他自回归模型。

图片

unsetunset相关链接unsetunset

图片
  • 主页:https://stepfun.ai/research/en/nextstep1
  • 论文:https://arxiv.org/pdf/2508.10711
  • 代码:https://github.com/stepfun-ai/NextStep-1
  • 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!

AI生成未来知识星球免费开放! 点击下方 卡片 ,关注" AI生成未来 " 👇扫码 免费加入 AI知识星球 ,如您有工作需要分享,欢迎联系: aigc_to_future 作者:UniWorld团队 解读:AI生成未来 论文链接:https://arxi...