添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
大型生成模型在图像编辑和上下文图像生成上进步显著,但在确保物理一致性上有关键差距。论文提出 ChronoEdit 框架,把图像编辑重新定义为视频生成问题,利用大型预训练视频生成模型捕捉对象运动和交互的隐式物理特性,还引入时间推理阶段,通过目标帧与推理标记联合去噪构建合理编辑轨迹,限制解空间在物理可行变换范围,推理标记经几步后丢弃以降低成本。此外,引入新基准测试 PBenchEdit,验证了 ChronoEdit 在视觉保真度和物理合理性上超越先进基线方法。
时间推理可视化
ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其"推理"编辑过程,从而揭示最终输出背后的编辑轨迹。
在参考图像和编辑图像的潜在变量之间引入了时间推理标记,作为中间指导,帮助模型"思考"可能的编辑轨迹。在推理阶段,为了提高效率,这些标记无需完全去噪;
物理人工智能相关任务
ChronoEdit 生成的编辑能够忠实地遵循物理一致性,这对于物理 AI 相关场景(例如自动驾驶车辆或人形机器人)尤其重要。
相关链接
论文标题: ChronoEdit:面向图像编辑和世界模拟的时间推理
论文: https://arxiv.org/pdf/2510.04290
主页: https://research.nvidia.com/labs/toronto-ai/chronoedit
体验:https://huggingface.co/spaces/nvidia/ChronoEdit
介绍
大型生成模型的最新进展极大地增强了图像编辑和上下文图像生成能力,但在确保物理一致性方面仍然存在关键差距,即编辑后的对象必须保持连贯性。这种能力对于世界模拟相关任务尤为重要。
论文提出了 ChronoEdit 框架将图像编辑重新定义为视频生成问题。 首先,ChronoEdit 将输入图像和编辑后的图像视为视频的首帧和末帧,从而能够利用大型预训练视频生成模型,这些模型不仅能够捕捉对象的外观,还能通过学习到的时间一致性来捕捉运动和交互的隐式物理特性。其次,ChronoEdit 引入了一个时间推理阶段,该阶段在推理阶段显式地执行编辑操作。在此设置下,目标帧与推理标记联合去噪,以构建一个合理的编辑轨迹,将解空间限制在物理上可行的变换范围内。
推理标记在经过几个步骤后被丢弃,以避免渲染完整视频带来的高昂计算成本。为了验证 ChronoEdit 的性能,引入了 PBenchEdit,这是一个针对需要物理一致性的上下文的图像-提示对的新基准测试,并证明 ChronoEdit 在视觉保真度和物理合理性方面均超越了最先进的基线方法。
方法概述
ChronoEdit流程概述。从右至左,去噪过程始于时间推理阶段,在此阶段,模型会想象并去噪一系列中间帧的短轨迹。这些中间帧充当推理标记,指导编辑以物理上一致的方式展开。为了提高效率,推理标记会在后续的编辑帧生成阶段被丢弃,在该阶段,目标帧会被进一步细化为最终的编辑图像。
实验结果
与基线方法的比较。前两行展示了 ImageEditBasic-Edit Suite(Ye 等人,2025)基准测试的示例,最后一行来自 PBench-Edit,其中 ChronoEdit-Think使用 10 个时间推理步骤进行评估。在两个基准测试中,ChronoEdit 都实现了更忠实地遵循给定指令的编辑,同时保留了场景结构和细节。
关于物理人工智能世界模拟相关任务的定性结果。所有结果均由 ChronoEdit-14B-Think 生成。每组结果均包含一张参考图像(左)和相应的输出图像(右)。ChronoEdit 生成的编辑结果能够精确地遵循给定的指令,同时保留物理人工智能相关场景的场景结构和精细细节。
结论
ChronoEdit 是一个用于图像编辑的基础模型,旨在确保物理一致性。通过重新利用预训练的视频扩散模型并引入时间推理阶段,该方法在保持输入和编辑输出之间一致性的同时,生成合理的变换。大量实验表明,ChronoEdit 在开源模型中达到了最先进的性能。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论