2025年6月16日星期一

打破次元壁!港大和达摩院联合发布头号玩家PlayerOne模型:世界首款“自我中心”模拟器!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Yuanpeng Tu等

解读:AI生成未来

图片

香港大学和阿里达摩院联合提出头号玩家(PlayerOne)模型,该方法可以根据用户提供的图像构建一个支持用户自由动作控制且场景一致的真实世界,通过摄像设备实时捕捉用户的动作序列,PlayerOne能够将这些动态信息无缝融入到构建的虚拟世界中,使用户能够以第一人称视角,在如同顶级AAA游戏般的高质量场景中,自由地进行探索与互动。

● 论文标题:PlayerOne: EgocentricWorld Simulator 
● 项目主页:https://playerone-hku.github.io/  
● 论文链接:https://arxiv.org/abs/2506.09995  
● 视频介绍:https://www.youtube.com/watch?v=OyvDTCIMYXU 

图片

效果展示

论文首先展示了PlayerOne模拟的视频结果,如下所示,提出的算法可以准确的根据人物的动作生成对应场景一致的模拟视频,同时和周边环境有着良好的交互,方法的应用场景同时包含现实场景和游戏场景。该方法具有较强的应用前景,比如沉浸式社交:用户通过第一视角探索虚拟世界,动作(如手势、头部转动)实时驱动虚拟角色,增强交互自然性,同时相比传统VR预渲染场景,方法支持无限制动作控制(如自由行走、抓取物体),提升沉浸感,有着动态场景一致性。

以上所有的人物动作视频为了方便理解,均以前置相机拍摄(即模拟视频中左手与拍摄的动作视频中左侧的手部动作对应)

方法介绍

动机

通过弥补预测建模与交互式现实主义之间的差距,世界模拟器正成为下一代自主系统和游戏引擎的关键基础设施,尤其在需要实时适应复杂、动态交互的场景中。尽管取得了显著进展,但这一方向在现有研究中仍未得到充分探索。先前研究主要聚焦于游戏化环境中的模拟,未能复现现实场景。此外,在模拟环境中,用户仅能执行预设动作(即方向性移动)。受限于构建的世界框架,无法实现如现实场景中的无限制移动。尽管已有初步尝试致力于现实世界模拟,但其主要贡献在于世界一致性生成,而非人类动作控制。因此,用户在环境中被动地充当旁观者,而非积极参与者。这一限制显著影响用户体验,因为它阻碍了用户与模拟环境之间建立真实连接。面对这些挑战,论文旨在设计一个以第一人称视角的世界基础框架,使用户能够成为自由探索的冒险者。基于用户提供的第一人称视角的图像,该框架可让用户通过外视角摄像头实时捕捉的无限制的人体动作,在模拟的世界中进行自由的移动。

图片

算法整体框架基于DiT模型,模型的输入输出如下: 输入:1. 第一帧图像(First Frame):用户提供的初始场景图像(第一视角,如佩戴头显视角拍摄的厨房、驾驶座等)。 2. 人体动作序列(Human Motion Sequence):通过外视角摄像头捕捉的真实人体动作(如头部转动、手部抓取、腿部移动),以 SMPL-X 参数或 2D/3D 关键点形式表示。 输出:生成的模拟视频(Simulated Video):动态视频,严格对齐输入动作序列,保持场景几何一致性(如物体遮挡关系、光照变化随视角调整)。

具体而言,方法首先将第一人称视角图像转换为视觉token。同时人物动作序列被划分为多个组,并分别输入到动作编码器中以生成部件级动作潜在编码,其中头部参数被转换为仅旋转的摄像机序列。该摄像机序列随后通过摄像机编码器进行编码,其输出被注入到带噪声的视频潜伏向量中以改善视角变化对齐。接下来,论文使用原始的视频渲染一个4D 场景点云序列,该序列随后通过带适配器的点云编码器处理以生成场景潜在编码。然后论文将这些潜在编码的拼接输入到 DiT 模型中,并对视频和场景潜在编码同时进行噪声添加和去噪处理,以确保世界一致的生成。最后,通过VAE解码器对去噪后的潜变量进行解码以生成最终结果。需注意,推理仅需第一帧和人体动作序列。

核心模块与流程

部件解构的动作注入模块

先前研究通常将摄像机轨迹用作动作条件,或仅限于特定方向的动作。这些限制使用户只能扮演被动的"观察者"角色,阻碍了有意义的用户交互。相比之下,论文的方法通过采用现实世界中的人体动作序列(即人体姿态或关键点)作为动作条件,使用户能够成为积极的"参与者",从而实现更自然且不受限制的动作。然而,论文的实证分析表明,从人体动作参数中整体提取潜在表示会增加精确动作对齐的复杂性。为解决这一挑战,论文提出了一种部分解耦的动作注入策略,该策略认识到身体各部分的不同作用。具体而言,手部动作对于与环境中的物体互动至关重要,而头部在维持第一人称视角的视角对齐方面发挥着关键作用。因此,论文将人体动作参数分为三类:躯干与双脚、双手和头部。每类参数均通过专属的动作编码器进行处理,该编码器由八层3D卷积网络组成,以提取相关潜在特征。这种专用处理确保了准确且同步的动作对齐。这些潜在特征随后沿通道维度进行拼接,形成最终的部件感知动作潜在表示。为了进一步增强第一人称视角对齐,论文仅将人体动作序列中的头部参数转换为仅包含旋转值的相机外参序列。论文清零相机外参中的平移值,同时假设头部参数位于相机坐标系的原点。

场景帧共同重建

虽然上述模块能够实现对第一人称视角和动作的精确控制,但它并不能保证生成的世界中场景的一致性。为了解决这一限制,论文提出了一个联合重建框架,该框架同时建模4D场景和视频帧,确保视频全程的场景一致性和连续性。具体而言,该框架首先利用CUT3R基于原始的视频数据为每个帧生成点云图,并通过第1帧至第n帧的信息重建第n帧的点云图。随后,这些点云图通过专用点云编码器压缩为潜在表示。为将这些潜在表示与视频特征集成,论文使用一个适配器将点云图潜在表示与视频潜在表示对齐,并将其投影到共享的潜在空间中,从而实现动作数据与环境数据的无缝融合。最后,论文将第一帧的潜在表示、人体动作序列、噪声视频潜在表示以及对应的噪声点云图潜在表示进行拼接。该综合输入随后被输入到扩散变换器中进行去噪,从而生成一个连贯且视觉一致的世界。重要的是,点图仅在训练阶段需要。在推理阶段,系统通过仅使用第一帧和对应的人体动作序列来生成与世界一致的视频,从而简化了过程。这种简化的方法提高了生成效率,同时确保生成的环境在整个视频中保持稳定和现实。

图片

数据集构造

任务的理想训练样本是第一人称视角视频与对应的动作序列配对。然而,目前公开可用的数据集库中尚不存在此类数据集。作为替代方案,论文通过从现有第一人称-第三人称视角视频数据集中提取这些数据对。具体而言,对于每个同步的第一人称-第三人称视角视频对,论文首先使用SAM2在第三人称视角中检测最大的人体。随后,对背景去除后的第三人称视角视频使用SMPLest-X处理,提取识别个体的SMPL参数作为人体动作数据。为提升优化稳定性,引入L2正则化先验。接着,通过评估2D重投影一致性过滤掉低质量SMPL数据。这包括使用SMPLX从SMPL参数生成3D网格,使用相应的相机参数将3D关节投影到2D图像平面,并通过OpenPose提取2D关键点。重投影误差通过测量SMPL投影的2D关键点与OpenPose检测的关键点之间的距离来计算。将重投影误差位于前10%的数据对排除在外,确保最终数据集包含高质量的动作-视频对。精炼后的SMPL参数被分解为身体和脚部(66维)、头部方向(3维)以及手部关节(每只手45维)组件,每个帧均包含这些组件。这些组件被输入到各自的动作编码器中。数据集构建流程如上图所示。

训练策略

尽管可以通过上述流程提取高质量的动作-视频训练数据,但该数据集的规模有限,不足以训练视频生成模型以生成高质量的自我中心视频。为解决此问题,论文利用了大规模的自我中心文本-视频数据集(即 Egovid-5M)。具体而言,论文首先使用LoRA在大型第一人称视角文本-视频数据对上对基线模型进行微调,实现粗粒度动作对齐的第一人称视角视频生成。随后,论文冻结已训练的LoRA,并使用构建的高质量数据集对模型最后六个块进行微调,以提升精细的人体动作对齐和视角不变的场景建模能力,这可有效解决成对数据匮乏的问题。最后,论文采用已有论文的不对称蒸馏策略,通过双向教师模型监督因果学生模型,实现实时生成和长时视频合成。

实验结果


图片

对于不同训练策略的消融对比

论文首先评估了提出的由粗到细的训练方案的几个变体,如视频所示,当将动作描述输入到基线模型中而未进行微调时,生成的结果会出现明显的缺陷,例如手部变形或意外出现的人员。类似的问题在仅使用动作-视频对进行训练时也能观察到。论文还探索了同时使用大规模第一人称视角视频和动作-视频对进行联合训练。具体而言,当输入第一人称视角视频时,把动作潜在编码设置为零,并提取文本描述的潜在值作为动作条件,同时采用平衡采样策略。尽管该变体能够生成第一人称视角视频,但其生成的结果与给定的人体动作条件无法准确对齐。相比之下,提出的由粗到细的训练方案相较于这些变体能产生明显更优的结果。

图片

对于部件解构的动作注入模块的消融对比

接下来,论文对解构模块进行了详细分析。具体而言,包含三种变体:基于ControlNet的动作注入、将动作序列作为统一实体输入("耦合"方案)以及移除论文的摄像头编码器。基于ControlNet的方案存在信息丢失问题,导致其无法生成与指定动作条件准确对齐的结果。同样,纠缠方案也表现出类似的缺陷。此外,移除摄像头编码器导致模型无法生成视角准确的对齐结果。该变体无法产生与下蹲动作对应的视角变化。最终,提出的解构模块成功生成既视角对齐又动作对齐的结果。

图片

对于不同重建方式的消融对比

论文对重建模块进行了详细分析,探索了三种变体:省略重建、移除SR模块内的适配器,以及用DUStR替换CUT3R进行点云渲染。如图所示省略重建导致模型无法生成一致的模拟结果。此外,由于帧的潜在变量与点图之间的分布差异,在不使用适配器的情况下进行训练会导致损失收敛困难,从而产生明显的失真。此外,在用DUStR替换CUT3R后,算法也能生成与场景一致的输出,这表明其对不同的点云渲染技术具有鲁棒性。

与其他方法的对比

由于没有与该人物设置相同的其他方法,论文选择了两个潜在的竞争对手进行比较:Cosmos 和 Aether。 如下方展示的样例所示(从左到右分别是PlayerOne,Cosmos-7B, Cosmos-14B, Aether),提出的方法相比于已有的方法在场景一致性以及环境交互角度有着较为明显的优势。

未来展望

与传统模型仅限于特定游戏场景或动作不同,PlayerOne 能够捕捉一般世界环境的复杂动态,并实现模拟世界中的自由动作控制。尽管取得了一定的成果,但在游戏场景中的性能略逊于现实场景,这可能归因 于现实与游戏训PlayerOne: EgocentricWorld Simulator练数据分布的不平衡。未来研究可通PlayerOne: EgocentricWorld Simulator过引入更多游戏场景数据集来解决这一问题。

参考文献

[1] PlayerOne: EgocentricWorld Simulator

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

工作流:古诗词解说视频工作流,这次给你不一样的拆解,保姆教程

使用工作流,一键生成古诗词解说视频,自媒体视频生成更容易,保姆教程,工作流拆解       最近拆解不少实用的工作流,感兴趣的大家可以去看看,我在这列几个: 工作流:使用扣子搞了一个自动生成公众号文章、自动排版、自动发布到公众号的mcp服务,这次运营公众号更简单了 ,这个目前...