2025年10月17日星期五

视频生成首次注入“物理灵魂”!港大&快手新模型PhysMaster让虚拟世界遵从真实定律

AI生成未来知识星球免费开放!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Sihui Ji

解读:AI生成未来
图片

论文链接:https://arxiv.org/pdf/2510.13809
项目链接:https://sihuiji.github.io/PhysMaster-Page/
git链接:https://github.com/KwaiVGI/PhysMaster

【亮点直击】

  • 将物理知识捕捉为一种表征,用以指导视频生成模型,从而增强其对物理的感知能力。
  • 由于物理表征缺乏严格的、公认的定义,我们无法使用现成的模型来提取这个物理条件,也无法为训练 PhysEncoder 设置直接的监督信号。我们采用了一种自上而下(top-down)的优化策略,即利用强化学习(RL),根据最终生成视频的物理合理性来对 PhysEncoder 进行优化。
  • 自上而下的优化使PhysEncoder 能够有效地从起始图像中捕捉隐含的物理线索,通过以插件方式将视频生成模型与物理表示相结合来注入物理知识。这种范式使模型能够学习一般的物理属性,从而允许其推广到多样化的场景。
  • PhysMaster为视频生成模型提供了一种更具普遍性的解决方案,以捕获跨越多样物理现象的物理知识,显示了其作为物理感知视频生成基础解决方案的优势,并有潜力激发更多精彩应用。

方法

基于 I2V 设置,PhysMaster 从输入图像中提取物理表示,并在三阶段训练流程中优化生成模型和 PhysEncoder。它通过 SFT 从真实数据中寻求直接监督,通过 DPO 从生成视频中寻求成对监督,并在专门的代理任务和更广泛的场景中实现。本文将分别详细介绍物理表示、任务制定和训练方案。

物理表示

PhysMaster 实现于基于 Transformer 的扩散模型(DiT)之上,采用 3D 变分自编码器(VAE)将视频和初始帧转换为潜在空间,并使用 T5 编码器  进行文本嵌入 

本文建议从输入图像中学习物理表示,作为 I2V 模型的额外指导,以注入物理信息,因为输入图像不仅包含显式的物理状态,如物体材料和空间分布,还包含隐式的物理定律,如重力场。值得期待的是,学习到的物理表示可以作为物理属性和动态的可推广指导,用于物理感知视频生成。遵循 Depth Anything 的结构,本文使用 DINOv2 编码器和一个物理头构建 PhysEncoder。前者采用 Yang 等(2024a)预训练权重进行初始化,负责语义感知,而后者将提取的高级语义特征调整为适当的维度,以注入 DiT 模型。将第一帧作为图像输入,PhysEncoder 将其编码为物理嵌入 ,然后与图像嵌入  连接后输入 DiT 模型。对于 SFT,基于流的 DiT 模型通过权重  直接参数化  以通过流匹配目标(Flow Matching objective)回归速度 

图片

任务制定

本文的工作旨在提供一种可扩展且可推广的方法,从目标数据中学习物理知识。因此,为了展示 PhysMaster 的有效性,本文首先在简单的物理原则下定义一个代理任务,并构建特定领域的数据进行初步验证;然后本文验证其在更广泛的物理定律和各种任务中的可推广性。

代理任务。 为了进行初步验证,选择"自由落体"(涉及物体从空中掉落并与表面上的其他物体碰撞的完整物理过程)这一简单而富有表现力的场景作为代理任务,原因如下。首先,"自由落体"体现了明确且基本的物理原则(例如,能量和动量守恒),这些原则在不同的物理场景中共享,使其成为进一步推广的合适代表。其次,这种物理场景涉及广泛的物体级物理属性,如密度、弹性和硬度,允许验证学习到的表示在不同物理属性上的可推广性。第三,该任务可以轻松模拟,以便大规模生成合成数据,并允许通过将生成的视频与真实视频进行比较来进行直接评估。原因在于,假设下落物体从静止开始且仅受重力影响,物体的轨迹在给定初始帧的情况下变得完全确定,这也使得能够根据与真实视频的相似性自动构建用于 DPO 的偏好视频对。

更广泛的场景。 进一步验证了 PhysMaster 在不同物理过程中跨越多样化物理过程的推广能力。遵循 WISA 的方法,本文包括大规模场景,广泛涵盖现实世界中常见的物理现象,以便 PhysEncoder 获得更全面和可推广的物理定律理解,从而有效增强视频生成模型的物理感知。与代理任务实现不同,本文通过添加特定领域的前缀(例如,"光学,一束光…","热力学,一杯水…")修改提供给生成模型的文本提示。这使模型根据所涉及的物理定律类型进行条件化,并引导其将视觉现象与从 PhysEncoder 提取的底层物理相关联。对于偏好分配,依赖人工标注者提供成对标签以构建和评估 DPO 数据。

训练方案

本文为 PhysMaster 提出了一种三阶段训练流程,通过利用 I2V 模型的生成反馈来实现 PhysEncoder 的物理表示学习。核心思想是通过来自预训练 DiT 模型生成视频的奖励信号为 PhysEncoder 设计 DPO,从而在不进行显式建模的情况下帮助物理知识学习。

阶段 I: DiT 和 PhysEncoder 的 SFT。首先,通过 SFT 将 I2V 基础模型与 PhysEncoder 的物理表示进行条件化,因此在接下来的阶段中可以通过模型的性能反馈来优化 PhysEncoder。由于 PhysEncoder 的训练从冻结的 DINOv2 开始,使用来自 Depth Anything 的预训练权重和随机初始化权重的可训练物理头,这一阶段可以视为为物理条件注入而调整 Depth Anything。如下图 1 所示,通过将 PhysEncoder 提取的物理嵌入与 VAE 编码的视觉嵌入连接在一起,将物理表示作为额外条件注入模型。根据公式 1 的 SFT 使模型具备从输入图像预测后续帧的初始能力,并由同时微调的 PhysEncoder 引导。图片

阶段 II: DiT 的 DPO。其次,希望将预训练模型的输出调整为更符合物理的分布,为 PhysEncoder 从物理准确性更高的生成视频中学习铺平道路。然后在阶段 II 中,应用 LoRA对 DiT 模型在偏好数据集上进行 DPO 微调,在此过程中,模型学习以更高概率生成正样本,并以更低概率生成负样本。关于 I2V 设置,本文的偏好数据集中的每个样本包括一个提示 、一张图像 、一个人类选择的视频  和一个人类拒绝的视频 。DPO 的目标是学习一个条件分布 ,该分布在靠近参考模型  的同时最大化奖励 

图片

其中, 控制来自  的正则化项(KL 散度)。对于本文的基于流的 DiT 模型,Flow-DPO 目标(Liu et al., 2025b) 表达式为:

图片为了简化起见,省略了条件提示  和图像  表示预测的速度场, 是"首选"和"次选"数据的目标速度。阶段 I 的预训练 DiT 模型被视为参考模型,并用于构建偏好数据对。具体而言,本文使用相同的提示  和初始帧 ,但不同的种子生成两组视频。通过在正样本  和负样本  之间建立明确的区别,模型学习生成物理上合理的视频。因此,本文进一步增强了模型的物理意识。

阶段 III:PhysEncoder 的 DPO。 利用来自预训练 DiT 模型的生成反馈,通过 DPO 范式优化 PhysEncoder 的物理表示。如上图 1 所示,本框架由两部分组成:待优化的 PhysEncoder 和提供生成反馈的预训练 DiT 模型。在阶段 III 中,PhysEncoder 的物理头是唯一可训练的模块,与阶段 II 共享相同的训练目标公式 3,仅在可学习参数上有所不同。 引导 PhysEncoder 学习一种物理表示,使预测的速度场  更接近"首选"数据的目标速度 。通过这种方式,通过引导 DiT 模型生成更准确的物理动态,PhysEncoder 的原始表示通过模型反馈逐渐以更多的物理知识进行优化。

实验

为了评估 PhysMaster 在物理表示学习中的有效性,并展示其增强 DiT 模型物理性能的潜力,本文在代理任务和广泛场景中进行了全面的实验。

实现细节

训练配置。 在所有三个阶段中,PhysEncoder 和 DiT 模型的训练都在 8 个 NVIDIA-A800 GPU 上进行,SFT 需要 20 小时,LoRA 上的 DPO 需要 15 小时,PhysEncoder 上的 DPO 需要 8 小时。训练过程中使用 Adam 优化器,在推理期间,本文使用 50 个 DDIM 步骤,并将 CFG 规模设置为 7.5。

数据集构建。 对于代理任务,遵循 PISA使用 Kubric创建"自由落体"的合成数据集。对象资产来自 Google Scanned Objects (GSO) 数据集。为了展示可推广性,本文使用 WISA-80K,涵盖三大物理分支(动力学、热力学和光学)中的 17 种现实世界物理事件。

评估协议。 PisaBench被引入用于评估本文模型在代理任务上的表现。本文使用 SAM 2进行对象 mask 的分割,并计算生成视频和真实视频对应 mask 之间的以下指标进行评估:mask 区域质心之间的  距离、Chamfer 距离(CD)和 mask 区域的交并比(IoU)。利用 VIDEOPHY来评估视频生成在更广泛场景中的物理意识。在 344 个精心设计的提示上进行测试,这些提示反映了广泛的物理原理,并报告物理常识(PC)和语义一致性(SA)得分。

代理任务评估

为了验证本文训练流程能有效提升基础模型在代理任务上的物理表现,本文将模型在"自由落体"运动上的物理准确性与现有工作进行比较,并对 PhysEncoder 的不同训练技术进行消融。

比较。 将本文模型与 PhysGen和 PISA在 PisaBench中的真实世界子集上进行比较,这些数据在训练期间对任何模型都是不可见的,以进行稳健的评估。通过与真实数据进行比较,应用更严格的相似性度量来评估场景中所有对象。下表 2 显示本文的模型优于两个基线。PhysGen 在准确建模对象与地面或桌子等表面之间的空间关系方面存在困难,因此常常导致物理上不合理的对象交互。对于 PISA,其基于深度奖励的最佳变体在优化轨迹准确性(可比的 /CD)时以形状一致性(较低的 IoU)为代价。相比之下,本文的模型在 IoU 上表现出色,同时保持了竞争性的轨迹准确性,实现了最佳的整体性能,这在下图 2 中也得到了证明。

图片

图2与专门用于刚体运动的 PhysGen 和 PISA 进行的定性比较证明,我们的模型在 "自由落体 "的形状一致性和轨迹准确性方面具有优势。

消融研究。 本文在下表 1 中报告了 PisaBench 合成子集上不同训练阶段和流程的定性结果,其中第 1 块表示 I2V 基础模型;第 2 到 4 块指的是本文的模型及其在训练流程第 I 至 III 阶段的变体。"Seen"对应于训练期间见过的对象和背景的视频分割,"Unseen"则是新颖的对象和背景。

图片
  1. 不同训练阶段的消融。 第 3、5 和 8 行表明本文的 SFT 赋予模型初步预测"自由落体"对象运动的能力,随后针对 DiT 模型的 DPO 进一步引导生成视频的分布趋向于物理上合理的路径,最后阶段对 PhysEncoder 的优化提高了其引导模型向更高物理意识水平发展的能力。下图3 中的定性结果一致证明了本文流程的有效性。

图3 不同训练阶段模型在"自由落体"真实测试集上的定性消融。 与基础模型相比,我们的三阶段训练提高了模型在保持物体刚性和遵守物理定律(例如重力加速度和碰撞)方面的性能。
  1. PhysEncoder 的消融。 第 2 和 4 行的比较流程未配备 PhysEncoder,因此 SFT 和 DPO 都在 DiT 模型上实现。尽管在 DiT 和 PhysEncoder 上的 SFT 表现(第 3 行)甚至比单独在 DiT 上的 SFT(第 2 行)更差,显示简单的 SFT 不能帮助 PhysEncoder 学习适当的物理表示来引导 DiT 模型走向物理意识。DPO 解锁了 PhysEncoder 提取物理信息的潜力,并引导模型生成具有更好物理表现的视频(第 4、5、8 行)。

  2. DPO 策略的消融。 所有 DPO 策略平均上都成功地进一步提高了物理准确性,仅优化 PhysEncoder(第 6 行)在性能提升上遇到困难。模型本身在为 PhysEncoder 提供反馈之前尚未与物理一致性对齐,阻碍了 DPO 的有效发挥。尽管本文的训练流程第 II 阶段表现不如 DiT 和 PhysEncoder 的联合 DPO(第 7 行),但本文的第 III 阶段超越了所有其他方法。第 III 阶段 DiT 和 PhysEncoder 的联合优化(第 9 行)在整体性能上与本文的第 III 阶段相当,但在"未见过"的分割上表现较差,可能是因为该变体具有可训练的 DiT 更容易过拟合训练数据,损害了模型对新场景的泛化能力。

PCA 分析。 本文还在下图 4 中可视化了第 I 阶段和第 III 阶段 PhysEncoder 的物理特征的主成分分析(PCA)。在本文的第 III 阶段物理特征图中,相同外力作用下的对象显示出明显的相似性(绿色表示在空中仅受重力影响的对象,红色表示在地面上受支撑力影响的对象);材料之间的差异也更明显(例如,白色框中的可变形对象具有明显不同的颜色),这证明了本文的 PhysEncoder 在物理理解方面的两个方面。

图片

更广泛场景的泛化

PhysEncoder 展示了其增强模型物理现实感的物理意识,表明其在更广泛场景中泛化的潜力。本文将训练流程应用于一个大规模数据集,该数据集广泛涵盖了现实世界中常见的物理现象,以证实本文方法的泛化能力。

比较。 本文与两类视频生成模型进行比较:包括 HunyuanVideo、CogVideoX-5B、Cosmos-Diffusion-7B、Wan2.1-T2V-1.3B 在内的通用模型,以及以 PhyT2V 和 WISA 为代表的专注于物理的模型。下表 3 显示,虽然本文的基础模型被 CogvideoX-5B 和 WISA 的基础模型超越,但本文在第 III 阶段的最终模型在 SA 和 PC 指标上达到了最先进的性能,表明本文提出的方法在物理和语义上增强了生成视频的现实感。本文的模型在效率上也具有显著优势。它比需要 VLM 反馈的迭代方法 PhyT2V 快约 70 倍,比 WISA 快 8 倍。本文的模型仅需 26 秒就在单个 A800 GPU 上生成一个 5 秒的视频,使其成为一个在不牺牲物理或语义一致性的情况下高度实用的解决方案。下面图 5和图6 包含与现有 T2V 模型的定性比较,展示了本文在刚体和流体运动的挑战性案例中优越的能力。

图片

图5 与 T2V 模型在刚体相关场景上的定性比较

图6 与 T2V 模型在流体相关场景上的定性比较

消融研究。 本文进行消融分析以验证下表 5 中用户对不同阶段模型的研究,验证下表 4 中训练的核心组件和策略的效果。1)PhysEncoder 的有效性:与本文的基础模型(第 1 行)相比,本文的最终模型(第 5 行)将 SA 和 PC 分数分别提高了 0.08 和 0.11。比较流程未配备 PhysEncoder,SFT(第 2 行)和后续的 DPO(第 3 行)均仅在 DiT 模型上实现。这样的流程在没有 PhysEncoder 的情况下将 SA 和 PC 分数提高了 0.05 和 0.06,证明了本文提出的 PhysEncoder 的优势,它成功地从训练数据中提取出关键的物理知识,并利用这些知识引导生成器朝向更大的物理现实感,而这仅通过简单地将 SFT 或 DPO 应用于 DiT 模型是无法实现的。2)DPO 的有效性:简单地将 SFT 应用于 PhysEncoder(第 2 行与第 4 行)并不能立即带来好处,这表明仅靠 SFT 不足以让 PhysEncoder 学习有用的指导性物理表示。然而,DPO 解锁了 PhysEncoder 的潜力,使其能够有效地将所学的物理表示转化为在物理常识和语义一致性方面更高质量的生成(第 4 行与第 5 行)。此外,下图 7和8 可视化了本文模型在第 I 阶段和第 III 阶段生成的视频,进一步验证了 DPO 的有效性。3)整个训练流程的有效性:下表 5 包含了在两种现实场景中不同训练阶段模型的人类偏好率,显示了标注者更偏好第 III 阶段模型生成的视频,而非第 I 阶段模型或 I2V 基础模型生成的视频,因为其更符合物理定律。

图片
图片

图7 不同训练阶段模型在流体相关场景下的定性消融。第一阶段后的 DPO 提高了模型在第三阶段的物理一致性。

图8 不同训练阶段的模型在刚体相关场景中的定性消融。第一阶段后的 DPO 提高了模型在第三阶段的物理一致性。

结论

PhysMaster它从输入图像中学习物理表示,以指导 I2V 模型生成物理上合理的视频。本文通过 DPO 基于预训练视频生成模型的生成反馈优化物理编码器,这被证明可以提高模型的物理准确性,并通过将物理知识注入生成过程展示了在各种物理过程中的泛化能力,证明了其作为物理感知视频生成和更广泛应用的通用和插件解决方案的潜力。

局限性。 依赖人工标注者来构建 DPO 在现实场景中的偏好数据集,这既昂贵又耗时。然而,现有的 AI 评估器在物理知识上存在缺陷,并且继承了偏见,这限制了强化学习的可扩展性。幸运的是,即使使用少量人工标注的数据(在本文的实验中为 500 个),本文的 DPO 训练范式仍然有效,从而减轻了这一局限性。

参考文献

[1] PHYSMASTER: MASTERING PHYSICAL REPRESENTA- TION FOR VIDEO GENERATION VIA REINFORCEMENT LEARNING

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

离线翻译神器Argos Translate:40+语种,无网也能精准翻译

开源离线翻译工具Argos Translate,支持40余种语言本地互译,无需网络连接。智能语言转换功能实现间接翻译,兼顾隐私与便捷,是出行、无网络环境的翻译利器。 推荐阅读: 70.9K Star!官方ai开发指南!建议收藏! 推荐:一个识别、翻译、阅读与智能分析工具!强到...