近年来,扩散模型虽在 AI 图像编辑领域成绩斐然,能生成惊艳逼真图像,却存在效果"失控"与效率低下两大痛点。
近年来,扩散模型虽在 AI 图像编辑领域成绩斐然,能生成惊艳逼真图像,却存在效果"失控"与效率低下两大痛点。其生成机制使局部修改易牵连其他区域,导致编辑不精准,且漫长迭代过程阻碍即时编辑。为解决这些问题,智象未来团队另辟蹊径,引入视觉自回归(VAR)架构,提出指令引导编辑框架 VAREdit。该框架可精准遵循指令,实现"指哪打哪",在提升编辑质量的同时,大幅提高生成效率,达成了精准度与速度的双重飞跃。
主要特点
强大的指令遵循:由于模型的自回归特性,可以更准确地遵循指令。 高效推理:针对8B模型进行了优化,生成时间少于1秒。 灵活的分辨率:支持512×512和1024×1024图像分辨率
VAREdit是基于Infinity模型构建的高级图像编辑模型,专为基于指令的高质量图像编辑而设计。
相关链接
论文:https://arxiv.org/pdf/2508.15772 代码:https://github.com/HiDream-ai/VAREdit 试用:https://huggingface.co/spaces/HiDream-ai/VAREdit-8B-1024
论文介绍
扩散模型的最新进展为指令引导的图像编辑带来了卓越的视觉保真度。然而,它们的全局去噪过程固有地将编辑区域与整个图像上下文纠缠在一起,导致意外的虚假修改,并损害了对编辑指令的遵循性。相比之下,自回归模型通过将图像合成表述为离散视觉标记上的顺序过程,提供了一种独特的范式。它们的因果和组合机制自然地规避了基于扩散的方法的遵循性挑战。
论文提出了一个视觉自回归 (VAR) 框架 VAREdit,它将图像编辑重新定义为下一个尺度的预测问题。VAREdit 基于源图像特征和文本指令,生成多尺度目标特征以实现精确编辑。该范式的一个核心挑战是如何有效地对源图像标记进行条件化。作者观察到最细尺度的源特征无法有效地指导更粗略的目标特征的预测。为了弥补这一差距,论文引入了尺度对齐参考 (SAR) 模块, 该模块将尺度匹配的条件信息注入到第一个自注意力层。VAREdit 在编辑依从性和效率方面均展现出显著的提升。
在标准基准测试中,它的表现比领先的基于扩散的方法高出 30% 以上的 GPT-Balance 得分。此外,它能够在 1.2 秒内完成 512×512 的编辑,比同等大小的 UltraEdit 快 2.2 倍。
方法概述
VAREdit 用于指令引导图像编辑的总体架构。VAREdit 首先将图像编码并量化为多尺度残差,并将指令映射到文本标记嵌入中。这些特征被组织为最细尺度的源特征 F(src)K 、池化文本表示 Fe(tgt)0以及由粗到细的目标特征 Fe(tgt)1:K−1,然后发送到 VAR Transformer。源特征 F(src)K 进一步发送到第一个自注意力层中的 SAR 模块,以解决尺度不匹配问题,同时文本标记嵌入也用于键值矩阵的交叉注意力计算。真实残差 R1:K 指导最后 K 个输出残差 Rˆ1:K 的训练。在推理过程中,残差 Rˆ1:K 被自回归预测,然后累积并解码为编辑后的图像。
性能比较
结论
VAREdit是一个基于指令引导的图像编辑框架,它遵循视觉自回归 (VAR) 建模中新颖的下尺度预测范式。VAREdit 将指令和量化的视觉 token 特征引入 VAR Transformer 模型,以预测目标图像的多尺度残差,从而提高编辑依从性和生成效率。 论文分析了不同条件策略的有效性,并提出了一种新颖的 SAR 模块,可以有效地将尺度匹配的条件注入第一个自注意力层。大量实验清楚地证明了 VAREdit 的卓越性能,与最先进的方法相比,VAREdit 实现了显著更高的编辑精度得分和更快的生成速度。作为一项初步探索,我们希望这项研究能够为未来设计更有效、更高效的基于增强现实 (AR) 的图像编辑模型提供宝贵的新见解。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论