2026年4月17日星期五

CVPR 2026 PhysGM:北理工&理想汽车单图生成4D物理动态,1分钟出片

北京理工大学与理想汽车联合提出PhysGM框架,被CVPR 2026接收。仅需单张图片,1分钟内即可生成高保真、符合物理规律的4D动态视频。支持蛋糕Q弹、沙子崩塌、多物体交互等场景。代码与数据集已开源,适用于具身智能、自动驾驶仿真等领域。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

在计算机视觉领域,让静态图片“动”起来已不新鲜,但若要求动态效果完美遵循物理规律(如蛋糕的Q弹、沙堆的崩塌、石雕的坚硬),则仍是巨大挑战。传统方法依赖耗时的逐场景优化(需数小时甚至数天),而北京理工大学与理想汽车等机构联合提出的PhysGM框架,仅需单张图片+1分钟,即可生成高保真、高物理真实性的4D动态视频!这一成果已被CVPR 2026接收,代码与数据集全面开源,或将成为物理仿真领域的新标杆。

图片

主要特点

  • 快速生成:不到 1 分钟即可从单张图像生成 4D 模拟图像
  • 高保真度:逼真的物理模拟,具有精确的材料属性
  • 端到端:3D高斯分布和物理参数的联合预测
  • 大型数据集:基于包含 50,000 多个带标注 3D 模型的 PhysAssets 数据集进行训练
  • 功能全面:可处理各种场景,包括放置、拉伸和多对象交互。
    图片
    图片

相关链接

  • 论文:https://arxiv.org/abs/2508.13911
  • 主页:https://github.com/Hihixiaolv/PhysGM
  • 官网:https://hihixiaolv.github.io/PhysGM.github.io/

论文介绍

图片

现有物理仿真方法存在两大瓶颈:

  • 依赖预重建的3D高斯模型(3DGS),需多视角图像与复杂优化;
  • 物理属性集成方式低效,或依赖手动标注,或需通过视频模型反向优化(SDS),耗时极长。

PhysGM提出了端到端前馈框架,直接从单张图片联合预测3D高斯表示与物理属性(如材料、杨氏模量、泊松比),并通过物质点法(MPM)快速仿真,实现1分钟内生成4D动态视频。

方法概述

图片

双解码器架构

DPT Head:预测初始3D高斯场景参数(几何与外观); Physics Head:预测物体物理属性的概率分布(如材料类型、弹性模量)。 并行处理:两解码器共享输入图像的潜在表示,独立生成参数后输入MPM模拟器。

两阶段训练范式

  • 阶段1:大规模监督预训练 在合成数据集(PhysAssets)上联合优化3DGS与物理参数预测,摆脱对多视角图像的依赖。
  • 阶段2:基于DPO的偏好微调

引入直接偏好优化(DPO),替代传统SDS优化:

从物理属性分布中采样参数,生成模拟视频; 通过轨迹对比(SAM-2、CoTracker-3)计算与真实视频的感知距离; 优化模型向“更物理合理”的方向调整,无需可微物理引擎。

PhysAssets数据集

整合Objaverse、OmniObject3D等数据集,标注5万+ 3D物体的物理属性(材料、杨氏模量、泊松比); 生成对应参考视频,覆盖5种材质(蛋糕、石头、沙子、橡胶、陶瓷)与多物体交互场景。

实验

定量对比

图片
图片
图片
  • 速度:PhysGM生成时间<1分钟,远超OmniPhysGS(>12小时)与DreamPhysics(>0.5小时);
  • 指标:在CLIPsim(语义一致性)与UPR(用户偏好率)上全面领先SDS基线模型。

定性效果

图片
图片
  • 单物体仿真:蛋糕Q弹落地、石头坚硬砸落、沙子崩散堆积;
  • 多物体交互:橡胶球与石雕碰撞、沙堆与背景互动;
  • 物理合理性:材质特性(弹性、硬度)与真实世界高度一致。

结论

PhysGM通过端到端前馈推理与DPO偏好优化,首次实现了从单张图片到高保真、高物理真实性4D动态的快速生成。其核心贡献包括:

  • 提出联合预测3DGS与物理属性的双解码器架构;
  • 引入DPO替代SDS,解决物理仿真中的优化瓶颈;
  • 发布大规模PhysAssets数据集,推动领域发展。

PhysGM为具身智能、自动驾驶仿真、交互式VR等领域提供了全新工具,让虚拟世界“动”得与真实世界别无二致!

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

CVPR 2026 PhysGM:北理工&理想汽车单图生成4D物理动态,1分钟出片

北京理工大学与理想汽车联合提出PhysGM框架,被CVPR 2026接收。仅需单张图片,1分钟内即可生成高保真、符合物理规律的4D动态视频。支持蛋糕Q弹、沙子崩塌、多物体交互等场景。代码与数据集已开源,适用于具身智能、自动驾驶仿真等领域。 Tags: CVPR 202...