👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Jay Zhangjie Wu、Huan Ling等
结果一览:
文章链接:https://arxiv.org/abs/2510.04290
项目链接:https://research.nvidia.com/labs/toronto-ai/chronoedit
Huggingface: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers
Github链接:https://github.com/nv-tlabs/ChronoEdit
Demo链接:https://huggingface.co/spaces/nvidia/ChronoEdit
亮点直击
ChronoEdit,一个旨在保持物理一致性的图像编辑基础模型。 提出了一种有效的设计,可将预训练的视频生成模型转变为图像编辑模型。 开发了一种新颖的时间推理推断阶段,以进一步增强物理一致性。 证明了 ChronoEdit 在开源模型中实现了SOTA性能,并与领先的专有系统相竞争。 提出了一个针对世界模拟应用量身定制的基准。
解决的问题
物理一致性问题:现有图像编辑模型在编辑后难以保持物体的物理属性(如颜色、几何形状)和场景的连贯性,容易出现不符合物理规律的幻觉或变形。 仿真任务需求:在自动驾驶、机器人操作等仿真应用中,缺乏能够生成符合物理规律的编辑结果的方法,难以模拟安全关键场景。 评估标准缺失:现有图像编辑基准主要关注视觉保真度和指令遵循,缺乏针对物理一致性的专门评估基准。
提出的方案
ChronoEdit框架:将图像编辑重新定义为视频生成问题,将输入图像和编辑目标分别视为视频的首尾帧,利用预训练视频生成模型的时间一致性先验来保证物理连贯性。 时序推理机制:在推理阶段引入显式的时序推理,通过联合去噪目标帧和推理tokens来模拟合理的编辑轨迹,约束解空间到物理可行的变换。 PBench-Edit基准:构建专门评估物理一致性的新基准,包含需要物理一致性的图像-提示对,涵盖真实世界编辑需求和多种编辑类型。
应用的技术
预训练视频生成模型:利用大规模预训练视频生成模型学习到的时间一致性先验,捕捉物体外观和隐含的物理运动规律。 两帧视频生成:通过将编辑任务建模为两帧视频生成,在微调时赋予视频模型编辑功能,同时保持其时间先验优势。 推理tokens机制:在去噪过程中引入推理tokens来规划编辑轨迹,随后在计算成本较高时丢弃这些tokens,平衡效果与效率。
达到的效果
物理合理性提升:在PBench-Edit基准上的实验表明,ChronoEdit在视觉保真度和物理合理性方面均优于现有SOTA基线方法。 可解释性增强:通过模拟中间帧揭示编辑模型的"思考过程",提供更可解释的编辑构建视图。 缩小技术差距:显著优于现有开源基线,缩小了与领先专有系统之间的性能差距。 仿真应用支持:为自动驾驶、机器人等领域的仿真任务提供了能够生成物理一致编辑结果的有效工具。
CHRONOEDIT
完整架构的概览如下图 3 所示。
背景:用于视频生成模型的整流流
现代视频生成模型通常依赖于预训练的变分自编码器 (VAE),它将原始视频 压缩成一个紧凑的隐空间表示 。训练和推理在此潜在空间中进行,解码器将视频重建为 。为了处理时间结构,因果视频 VAE 独立编码第一帧,并基于过去的隐空间表示压缩后续块。在我们的工作中,我们采用 Wan2.1 VAE,它产生 , , , 和 。
矫正流 通过流匹配为训练视频生成器提供了一个原则性框架。给定视频数据 和高斯噪声 ,在时间步 的插值隐空间表示定义为 ,其中 。一个带有参数 的去噪器 通过最小化以下目标来预测目标速度场 :
这里 表示可选的文本条件, 是可选的图像条件。
将视频生成模型重新用于编辑
形式上,图像编辑任务旨在将参考图像 转换为满足自然语言指令 的输出图像 。我们的关键见解是将预训练的图像到视频模型重新用于此任务,利用其固有的时间先验来保持源图像和目标图像之间的一致性。
编码编辑对。 为了利用预训练视频模型中的时间先验,我们将编辑对 重新解释为一个短视频序列。具体来说,输入图像被编码为第一个潜在帧 ,而输出图像被重复四次以匹配视频 VAE 的 4 倍时间压缩,并编码为 。这产生了两个与视频模型架构对齐的时间隐空间表示。我们还调整了模型的 3D 分解旋转位置嵌入 (RoPE),将输入图像 锚定在时间步 0,输出图像 锚定在预定义的时间步 ,显式编码了它们的时间分离。为方便起见,我们将 固定为联合训练视频隐空间表示的长度(见下一节)。
时间推理tokens。 为了超越直接的输入-输出映射,本文显式地建模输入图像 和输出图像 之间的过渡。目标是鼓励模型想象一个合理的轨迹,而不是一步再生目标图像,后者通常会导致突变。通过推理中间状态,模型能更好地保持物体身份、几何形状和物理连贯性。在实践中,我们在 和 之间插入中间潜在帧。这些帧用随机噪声初始化,并与输出帧隐空间表示联合去噪。我们将它们称为时间推理tokens ,因为它们作为中间指导,帮助模型"思考"合理的过渡。
统一图像对和视频。 类似于前面介绍的视频去噪器,本文将图像编辑去噪器定义为 ,其中 和 是流变量。公式自然支持在统一框架内对图像编辑对和完整视频序列进行训练。对于公共图像编辑数据集,每个对 被重新解释为一个两帧视频,其中 是第一帧, 是最后一帧,直接监督基于指令的编辑。对于视频,其结构匹配我们的推理tokens设计:第一帧对应 ,最后一帧对应 ,所有中间帧充当推理tokens。输入帧和推理帧通过视频 VAE 作为标准视频帧编码为隐空间表示,而目标帧则单独编码并重复四次以匹配 VAE 的时间压缩。这种设计使得推理tokens在推理时是可选的——VAE 解码器仍然可以独立恢复目标帧——同时在存在时提供强有力的监督以确保连贯过渡。总之,这种联合训练策略允许模型从图像对中学习语义对齐,同时额外学习基于视频数据的时间一致性。
视频数据管理。 使用推理tokens进行训练需要多样化的场景随时间演变的示例。为此,我们策划了一个包含 140 万个视频的大规模合成数据集,这些视频由最先进的视频生成模型生成。我们特别强调将场景动态与相机运动分离,因为在训练期间,第一帧和最后一帧之间意外的视角偏移可能被误解为编辑。
本文的语料库涵盖三个互补类别:(i) 由文本到视频模型生成的静态相机、动态物体片段,我们在提示词后附加后缀"整个视频中相机保持静止。"并使用 ViPE过滤不稳定的片段;(ii) 以自我为中心的驾驶场景,这是一个关键的世界模拟场景,使用 Ren 等人 (2025a) 的 HDMap 条件模型生成,该模型固定相机,同时通过边界框显式控制车辆运动;(iii) 来自 GEN3C的动态相机、静态场景片段,允许精确控制相机轨迹,同时保持场景内容固定。最后,为了提供相应的指令 ,我们使用 VLM 为每个视频添加带有编辑指令的标题,总结从输入帧到输出帧的过渡,详见附录 D。
时序推理推断
为了在推理时高效地进行图像编辑,我们引入了一种两阶段方法,使模型能够受益于视频推理tokens,而无需承担生成完整视频的全部计算成本。直观上,流/扩散轨迹的前几个噪声最大的步骤决定了结果的全局结构,因此tokens在序列中更频繁地跨帧参与。因此,我们在前几个去噪步骤中引入视频推理tokens,并在后续去噪步骤中省略它们,以获得质量和计算成本之间的最佳平衡。算法1中提供了伪代码,图3中显示了可视化。
在第一阶段,将干净的输入tokens 、采样的推理tokens 和带噪声的采样输出tokens 连接成一个时间序列。与图像到视频生成类似,模型对连接后的序列执行去噪,而不修改 tokens。我们并非一直去噪到干净的隐空间表示,而是执行 步去噪,并将时间序列中对应于 的部分去噪的最后隐空间表示向前传递。在第二阶段,部分去噪的输出隐空间表示与干净的输入隐空间表示连接起来,并在剩余的 步中完全去噪。与训练时一样,输出隐空间表示对应于四个重复的帧,以匹配视频 VAE 的时间压缩。在解码为 RGB 后,这四个帧通常会坍缩为同一图像,取最后一帧作为最终的编辑结果。
用于快速推理的少步蒸馏
为了进一步加速推理,采用蒸馏技术来减少推理所需的步数。利用 DMD 损失来训练一个 8 步的学生模型。蒸馏目标的梯度由下式给出:
其中 和 分别表示来自教师模型和可训练的伪分数模型的分数估计; 是前向扩散过程(即噪声注入)。为简洁起见,我们省略了条件项。通过这个训练过程,我们的模型可以显著提高推理速度,同时保持指令跟随能力和图像编辑质量。
实验
本文评估了两种配置的 ChronoEdit,参数分别为 140 亿和 20 亿,表示为 ChronoEdit-14B 和 ChronoEdit-2B。我们在多个数据集和编辑任务上评估这两个模型,将它们与开源和专有基线进行比较,并消融不同设计选择的贡献。我们进一步评估了带时序推理的 ChronoEdit-14B 变体 (ChronoEdit-14B-Think) 以及经过步数蒸馏的变体 (ChronoEdit-14B-Turbo)。
训练细节。 ChronoEdit-14B 是从 Wan2.1-I2V-14B-720P1 的预训练模型微调而来,ChronoEdit-2B 则基于 Cosmos-Predict2.5-2B2构建。两个模型均使用 的学习率和 的权重衰减进行训练。由于预训练模型已经展现出生成细粒度细节的强大能力,我们从移位值设为 5 的 logit-normal 分布 (Esser et al., 2024b) 中采样时间步 ,从而对大时间步区域进行过采样。该模型在 140 万个视频和 260 万个图像对上进行了预训练,每个视频的第一帧和最后一帧也作为额外的图像对包含在内。在训练期间,我们采用图像对和视频 1:1 的比例,其中视频数据用于学习视频推理tokens。我们经验性地使用 6 个中间潜在帧作为时间推理tokens,对应于像素空间中的 24 帧,这总共产生 个时间步。训练批大小为 128。在最后阶段,预训练模型在一个包含 5 万张图像和 2 万个视频的高质量监督微调 (SFT) 数据集上以 5:1 的比例采样,进行了 1 万步的微调。对于 ChronoEdit-14B-Turbo,我们以 的学习率应用蒸馏损失训练了 1500 步,并将学生模型和伪分数模型之间的更新比率设置为 5 以确保训练稳定。
基准测试。 在两个互补的基准测试上评估我们的方法。首先,对于通用图像编辑,使用 ImgEdit-Basic-Edit Suite,它包含 734 个测试案例,涵盖九种常见的图像编辑任务:添加、移除、改变、替换、风格迁移、背景更改、运动更改、混合编辑和动作。该基准测试由手动收集的互联网图像构建而成,以确保语义多样性,其中动作类别主要强调人体姿态修改。使用 GPT-4.1 评估模型在每个任务上的性能,衡量指标包括指令遵循度、编辑质量和细节保留度。
虽然先前的图像编辑基准测试评估视觉真实性和指令对齐性,但它们对物理一致性的评估有限。因此,我们开发了 PBench-Edit,这是一个源自原始 PBench 数据集的图像编辑基准测试,旨在评估物理情境下的编辑。原始 PBench 评估自动驾驶、机器人技术、物理学和常识推理等领域的世界模型进展。PBench-Edit 通过从每个领域选择代表性帧并将其与手动验证的编辑指令配对,重新利用其精心策划的视频和标题来进行针对性编辑任务。与 ImgEdit-Action 不同,PBench-Edit 涵盖了更广泛的现实世界交互——例如烹饪、驾驶和机器人操作——从而产生了一个既多样化又基于物理的基准测试。它总共包含 271 张图像(133 张人类,98 张机器人,40 张驾驶)。使用 GPT-4.1 进行评估,标准与 ImgEdit相同:指令遵循度、编辑质量和细节保留度。图 S4 中提供了额外的可视化结果。
定量评估
通用图像编辑结果。 下表 1 报告了在 ImgEdit Basic-Edit Suite上的结果。为了确保与先前工作在计算成本方面的公平比较,我们禁用了时序推理并将 ChronoEdit-14B 作为纯图像编辑模型进行评估。ChronoEdit-14B 取得了 4.42 的最高总分,优于最先进的基线。在开源模型中,FLUX.1 Kontext [Dev] 在规模上最具可比性(12B 对 14B)。ChronoEdit-14B 总体超越它 +0.90 分,在提取(4.66 对 2.15,+2.51)和移除(4.57 对 2.94,+1.63)任务上提升尤其显著,同时在风格迁移(4.83 对 4.38)上表现相当。这些结果表明 ChronoEdit 在执行需要空间和结构推理的指令驱动编辑方面具有强大能力。与总体得分 4.27 的 200 亿参数开源模型 Qwen-Image相比,ChronoEdit-14B 在所有任务上都达到或超过了其性能。值得注意的是,ChronoEdit-14B 在具有挑战性的类别上取得了更强的结果,例如背景更改(4.67 对 4.38)和动作/运动编辑(4.41 对 4.27),这表明联合图像-视频预训练为建模动态一致性和场景转换提供了强大优势。同样值得注意的是,ChronoEdit-14B-Turbo 的运行速度比 ChronoEdit-14B 快 6 倍(每张图像 5.0 秒对 30.4 秒,速度在 2 个 Nvidia-H100 GPU 上测量),其结果仅比 ChronoEdit-14B 低 0.3 分,但仍然分别以 0.61 和 0.13 的优势超过 FLUX.1 Kontext [Dev] 和 FLUX.1 Kontext [Pro]。
此外还报告了 ChronoEdit-2B 的结果,其规模比 ChronoEdit-14B 小 7 倍,但性能与 ChronoEdit-14B-Turbo 相当。
世界模拟编辑结果。 在 PBench-Edit 基准上评估我们的方法,该基准强调基于物理的编辑场景。如下表 2 所示,ChronoEdit-14B 取得了最高的总分(4.43),优于 BAGEL(4.32)、Qwen-Image(4.26)和 FLUX.1 Kontext [Dev](3.83)等强基线。值得注意的是,ChronoEdit-14B 在动作保真度上带来了明显的提升(4.01,对比 Qwen-Image 的 3.76 和 FLUX.1 Kontext [Dev] 的 2.88),同时在身份保持(4.65)和视觉与解剖结构一致性(4.63)上也保持了有竞争力的结果。在这三个评估维度中,动作保真度尤为重要,因为它直接反映了模型在执行涉及现实世界交互的编辑时保持物理一致性的能力。即使没有使用时序推理,ChronoEdit-14B 也能从其预训练的视频先验中受益,使其能够取得比所有基线图像编辑模型都更强的结果。
使用时序推理后,ChronoEdit-14B-Think () 实现了 4.53 的新的最先进总分,尤其在动作保真度上有显著提升(4.31)。这突显了显式时序推理对于需要更深层次理解物理一致性的编辑任务的价值。值得注意的是,ChronoEdit-2B-think () 的性能与 ChronoEdit-14B 相当,仅略低于 ChronoEdit-14B-Think。
定性评估
与基线的比较。 我们在各种具有挑战性的场景下,将我们的方法与最先进的图像编辑方法进行比较。如下图 4 所示,ChronoEdit 持续产生高质量的结果,展现出具有竞争力的整体性能,尤其是在需要精确建模动态姿态和交互的面向动作的编辑中具有明显优势。这些结果突显了我们的视频推理在处理传统编辑方法通常难以应对的、基于时间的复杂编辑任务方面的有效性。
ChronoEdit 在物理 AI 任务上的表现。 下图 5 展示了 ChronoEdit 处理广泛物理 AI 世界模拟任务的能力。这些结果证明了该模型在从自动驾驶动力学到机器人物体操作等各种世界模拟任务领域中具有很强的泛化能力。
时序推理轨迹可视化。 如果视频推理tokens被完全去噪成一个干净的视频,模型可以通过将中间帧可视化为一个推理轨迹来说明它是如何"思考"的——尽管这是以较慢的推理速度为代价的。在下图 6 中展示了这样的可视化。如顶行所示,当提示"在长椅上添加一只猫"时,模型首先合成长椅,然后预见到猫从角落出现并跳上长椅,通过一系列合理的中间状态来构建场景。值得注意的是,我们方法的一个涌现能力是它能够生成推理轨迹视频来实现编辑。即使没有接触过例如长椅突然出现这样的训练数据,视频模型仍然可以想象并执行一个合理的轨迹来完成编辑。在另一个例子中,模型正确地推断出了用手将蛋糕放在盘子上的分步过程。这种深思熟虑的轨迹揭示了模型如何以连贯的、基于物理的方式感知世界并与之互动(参见项目页面中的视频可视化)。
ChronoEdit-Turbo。 在下图 7 中进一步可视化了 ChronoEdit 和 ChronoEdit-14B-Turbo 的定性比较。ChronoEdit 和 ChronoEdit-Turbo 都以相当的视觉保真度成功执行了编辑,保留了场景结构和精细细节。这表明轻量级的 ChronoEdit-Turbo 变体实现了与 ChronoEdit 相媲美的编辑质量,同时提供了更高的效率(运行时间 5.0 秒 vs. 30.4 秒)。
消融研究
推理时间步。 本文的模型通过遍历一系列中间状态来执行推理,从而构建一个合理的时间轨迹,而不是直接一步再生目标图像。根据经验,发现在总共 的采样步数中,将推理时间步设置为 所达到的性能与在整个轨迹上使用推理相当(表 2),同时将总体计算开销从 55.5 秒 () 减少到 35.3 秒 (),与不使用时序推理 (30.4 秒) 相比仅增加了 4.9 秒。图 8 提供了一个说明性示例,强调较短的推理范围通常足以保持保真度,同时带来显著的效率提升。
关于视频预训练权重和编码编辑对设计的好处的消融研究可在附录 C 中找到。
结论
ChronoEdit,一个旨在强化物理一致性的图像编辑基础模型。通过重新利用预训练的视频扩散模型并引入时序推理推断阶段,我们的方法在产生合理变换的同时,保持了输入和编辑输出之间的连贯性。大量实验证明,ChronoEdit 在开源模型中实现了最先进的性能。
参考文献
[1] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论