上海交通大学团队在CVPR 2026提出PoseAnything,首个支持任意骨骼拓扑的姿态引导视频生成框架,适用于动物、奇幻生物等非人主体。核心亮点包括局部感知时空一致性模块解决外观漂移,以及解耦主体动作与相机运镜的CFG策略。团队开源5万组非人姿态视频数据集XPose,并提供自动标注管线。适合AI视频生成、数字人、动画游戏领域的研究者与开发者参考。
Tags:
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Ruiyan Wang等
姿态引导视频生成是精准操控角色动作的核心技术。无论是打造虚拟数字人,还是创作超现实动画,这项技术在影视和游戏赛道都展现出了巨大的发展潜力。然而,现有的姿态驱动模型普遍存在一个致命的局限:极度依赖人体拓扑先验。这导致它们只能精准控制人类,一旦面对动物、奇幻怪兽等非人主体时,动作控制便会彻底失效。
为了打破这一困境,来自上海交通大学的研究团队推出了万物通用的姿态引导视频生成框架 —— PoseAnything。
论文标题:PoseAnything: General Pose-guided Video Generation with Part-aware Temporal Coherence
论文链接:https://arxiv.org/pdf/2512.13465
项目主页:https://ryan-w2024.github.io/project/PoseAnything/
亮点直击
打破物种限制: 告别“仅限人类”的传统束缚,支持任意骨骼输入、万物通用的姿态驱动视频生成框架。 重磅开源贡献: 推出首个包含 50,000 组高质量非人姿态-视频对的重磅数据集 XPose,并附带全自动标注与过滤管线。 局部级精细对齐: 设计局部感知时空一致性模块,解决主体运动控制中的外观漂移问题。 镜头完全自由: 提出主体与相机运动解耦的CFG策略,在姿态控制任务中完美解锁独立相机运镜。
数据集构建
为了提取高质量的非人像主体骨架,研究团队设计了一套自动化标注流程
无论是在主体的丰富度、运动类型的多样性,还是在具体肢体动作上,该数据集都展现出了极高的多样性。
架构方法
给定参考图像 和姿态序列 ,模型首先将 编码为姿态潜变量 ,并将其与 的潜变量 在通道维度进行级联。在推理过程中,时序感知一致性模块通过以下三个核心步骤实现细粒度的外观一致性控制:
(1)局部掩码生成
将完整骨架划分为若干局部线段 。随后,对每个局部线段进行膨胀处理,以生成能够完美覆盖参考图像中对应身体部位的局部掩码
(2)局部对齐匹配
利用跨帧的最大注意力权重,在参考帧局部区域()与后续帧对应区域()之间建立精准的时空对应与映射关系。
(3)局部感知跨注意力计算
针对每一对成功匹配的局部特征对 ,在特定的掩码区域内显式计算跨帧注意力机制。通过将注意力计算严格限制在对应的局部范围内,在细粒度上锁死特定部位的外观与纹理,确保运动过程中的时空一致性。
为了实现镜头运镜与主体动作的独立控制,模型巧妙地利用了 CFG 的双分支架构,将两种控制信号进行空间分离:在正向锚点中注入主体运动信号,而在反向锚点中注入相机运镜信号。
实验效果
在人像和非人像数据上,PoseAnything均展现出优越的性能
总结
在本项工作中,团队推出了首个万物通用的姿态引导视频生成框架 PoseAnything,完美支持任意拓扑骨骼输入,让非人类角色也能丝滑跨物种“随心起舞”。为了解决运动过程中的主体外观漂移问题硬伤,模型独创了 PTCM(局部感知时空一致性模块),在细粒度局部层面上死死锁住外观纹理;同时,团队重构了 CFG 双分支架构,将主体动作与相机轨迹彻底解耦,在姿态控制任务中解锁了独立的运镜自由。此外,团队还打造了一套全自动骨骼提取管线,并重磅开源了包含 50,000 组高质量非人姿态-视频对的数据集 XPose。大量实验表明,PoseAnything 无论在视觉效果还是定量指标上均全面超越了现有尖端方法,展现出良好的泛化能力与广阔的应用前景!
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论