AI I024: GigaAI发布全球首个解耦式人体视频生成框架HumanDreamer，可生成由文本到姿态到人体的高质量视频！

2025年4月26日星期六

GigaAI发布全球首个解耦式人体视频生成框架HumanDreamer，可生成由文本到姿态到人体的高质量视频！

由GigaAI、北大、港中文联合提出了一个解耦的人体视频生成框架HumanDreamer，可以根据文本提示生成

由GigaAI、北大、港中文联合提出了一个解耦的人体视频生成框架HumanDreamer，可以根据文本提示生成各种姿势，然后利用这些姿势生成人体运动视频。

此外论文还提出了用于人体运动姿势生成的最大数据集MotionVid，基于该数据集作者提出了 MotionDiT，它经过训练可以从文本提示生成结构化的人体运动姿势。

效果展示

文本到姿势的比较

姿势到视频生成

文字转视频的比较

2D-3D运动提升

论文介绍

人体运动视频生成一直是一项颇具挑战性的任务，这主要是因为学习人体运动本身就存在难度。虽然一些方法尝试通过姿势控制来明确驱动以人为中心的视频生成，但这些方法通常依赖于从现有视频中获取的姿势，因此缺乏灵活性。

为了解决这个问题，论文提出了 HumanDreamer，这是一个解耦的人体视频生成框架，它首先根据文本提示生成各种姿势，然后利用这些姿势生成人体运动视频。作者提出了 MotionVid，这是用于人体运动姿势生成的最大数据集。基于该数据集提出了 MotionDiT，它经过训练可以从文本提示生成结构化的人体运动姿势。此外还引入了一种新颖的 LAMA 损失函数，这两项指标共同使 FID 显著提升了 62.4%，同时 top1、top2 和 top3 的 R 精度分别提升了 41.8%、26.3% 和 18.3%，从而提升了文本到姿势控制的准确率和 FID 指标。

在各种 Pose-to-Video 基线上进行的实验表明该方法生成的姿势可以生成多样化且高质量的人体运动视频。此外，该模型还可以支持其他下游任务，例如姿势序列预测和 2D-3D 运动提升。

方法概述

所提出的文本转姿势生成的训练流程。姿势数据通过姿势变分自动编码器 (Pose VAE) 编码到潜在空间，然后由所提出的 MotionDiT 进行处理，其中利用局部特征聚合和全局注意力机制来捕获整个姿势序列的信息。最后，通过所提出的 CLoP 计算 LAMA 损失，从而增强 MotionDiT 的训练效果。

实验结果

与 SOTA 文本转姿态方法的可视化结果对比。结果表明，我们的模型显著优于其他模型。我们的方法生成的姿态与文本约束更加一致，关键点保持完整性，且运动抖动最小。

结论

HumanDreamer是一个用于生成人体运动视频的开创性解耦框架，它将文本控制的灵活性与姿势引导的可控性融为一体。利用最大的人体运动姿势生成数据集 MotionVid，训练 MotionDiT 生成结构化姿势。论文引入了 LAMA 损失函数来改进语义对齐，确保输出的一致性。实验结果表明，在 Pose-to-Video 中使用生成的姿势可以生成高质量、多样化的人体运动视频，超越了当前的基准。这些发现证实了提出的解耦框架的有效性和适应性，有助于实现多样化的视频生成。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AI I024