北京理工大学与理想汽车联合提出PhysGM框架,被CVPR 2026接收。仅需单张图片,1分钟内即可生成高保真、符合物理规律的4D动态视频。支持蛋糕Q弹、沙子崩塌、多物体交互等场景。代码与数据集已开源,适用于具身智能、自动驾驶仿真等领域。
Tags:
在计算机视觉领域,让静态图片“动”起来已不新鲜,但若要求动态效果完美遵循物理规律(如蛋糕的Q弹、沙堆的崩塌、石雕的坚硬),则仍是巨大挑战。传统方法依赖耗时的逐场景优化(需数小时甚至数天),而北京理工大学与理想汽车等机构联合提出的PhysGM框架,仅需单张图片+1分钟,即可生成高保真、高物理真实性的4D动态视频!这一成果已被CVPR 2026接收,代码与数据集全面开源,或将成为物理仿真领域的新标杆。
主要特点
-
快速生成:不到 1 分钟即可从单张图像生成 4D 模拟图像 -
高保真度:逼真的物理模拟,具有精确的材料属性 -
端到端:3D高斯分布和物理参数的联合预测 -
大型数据集:基于包含 50,000 多个带标注 3D 模型的 PhysAssets 数据集进行训练 -
功能全面:可处理各种场景,包括放置、拉伸和多对象交互。
相关链接
-
论文:https://arxiv.org/abs/2508.13911 -
主页:https://github.com/Hihixiaolv/PhysGM -
官网:https://hihixiaolv.github.io/PhysGM.github.io/
论文介绍
现有物理仿真方法存在两大瓶颈:
-
依赖预重建的3D高斯模型(3DGS),需多视角图像与复杂优化; -
物理属性集成方式低效,或依赖手动标注,或需通过视频模型反向优化(SDS),耗时极长。
PhysGM提出了端到端前馈框架,直接从单张图片联合预测3D高斯表示与物理属性(如材料、杨氏模量、泊松比),并通过物质点法(MPM)快速仿真,实现1分钟内生成4D动态视频。
方法概述
双解码器架构
DPT Head:预测初始3D高斯场景参数(几何与外观); Physics Head:预测物体物理属性的概率分布(如材料类型、弹性模量)。 并行处理:两解码器共享输入图像的潜在表示,独立生成参数后输入MPM模拟器。
两阶段训练范式
-
阶段1:大规模监督预训练 在合成数据集(PhysAssets)上联合优化3DGS与物理参数预测,摆脱对多视角图像的依赖。 -
阶段2:基于DPO的偏好微调
引入直接偏好优化(DPO),替代传统SDS优化:
从物理属性分布中采样参数,生成模拟视频; 通过轨迹对比(SAM-2、CoTracker-3)计算与真实视频的感知距离; 优化模型向“更物理合理”的方向调整,无需可微物理引擎。
PhysAssets数据集
整合Objaverse、OmniObject3D等数据集,标注5万+ 3D物体的物理属性(材料、杨氏模量、泊松比); 生成对应参考视频,覆盖5种材质(蛋糕、石头、沙子、橡胶、陶瓷)与多物体交互场景。
实验
定量对比
-
速度:PhysGM生成时间<1分钟,远超OmniPhysGS(>12小时)与DreamPhysics(>0.5小时); -
指标:在CLIPsim(语义一致性)与UPR(用户偏好率)上全面领先SDS基线模型。
定性效果
-
单物体仿真:蛋糕Q弹落地、石头坚硬砸落、沙子崩散堆积; -
多物体交互:橡胶球与石雕碰撞、沙堆与背景互动; -
物理合理性:材质特性(弹性、硬度)与真实世界高度一致。
结论
PhysGM通过端到端前馈推理与DPO偏好优化,首次实现了从单张图片到高保真、高物理真实性4D动态的快速生成。其核心贡献包括:
-
提出联合预测3DGS与物理属性的双解码器架构; -
引入DPO替代SDS,解决物理仿真中的优化瓶颈; -
发布大规模PhysAssets数据集,推动领域发展。
PhysGM为具身智能、自动驾驶仿真、交互式VR等领域提供了全新工具,让虚拟世界“动”得与真实世界别无二致!
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~