由GigaAI、北大、港中文联合提出了一个解耦的人体视频生成框架HumanDreamer,可以根据文本提示生成
由GigaAI、北大、港中文联合提出了一个解耦的人体视频生成框架HumanDreamer,可以根据文本提示生成各种姿势,然后利用这些姿势生成人体运动视频。
此外论文还提出了用于人体运动姿势生成的最大数据集MotionVid,基于该数据集作者提出了 MotionDiT,它经过训练可以从文本提示生成结构化的人体运动姿势。
效果展示
文本到姿势的比较
姿势到视频生成
文字转视频的比较
2D-3D运动提升
相关链接
论文:https://arxiv.org/pdf/2503.24026 项目:https://humandreamer.github.io 代码:https://github.com/GigaAI-research/HumanDreamer (Coming soon...)
论文介绍
人体运动视频生成一直是一项颇具挑战性的任务,这主要是因为学习人体运动本身就存在难度。虽然一些方法尝试通过姿势控制来明确驱动以人为中心的视频生成,但这些方法通常依赖于从现有视频中获取的姿势,因此缺乏灵活性。
为了解决这个问题,论文提出了 HumanDreamer,这是一个解耦的人体视频生成框架,它首先根据文本提示生成各种姿势,然后利用这些姿势生成人体运动视频。作者提出了 MotionVid,这是用于人体运动姿势生成的最大数据集。基于该数据集提出了 MotionDiT,它经过训练可以从文本提示生成结构化的人体运动姿势。此外还引入了一种新颖的 LAMA 损失函数,这两项指标共同使 FID 显著提升了 62.4%,同时 top1、top2 和 top3 的 R 精度分别提升了 41.8%、26.3% 和 18.3%,从而提升了文本到姿势控制的准确率和 FID 指标。
在各种 Pose-to-Video 基线上进行的实验表明该方法生成的姿势可以生成多样化且高质量的人体运动视频。此外,该模型还可以支持其他下游任务,例如姿势序列预测和 2D-3D 运动提升。
方法概述
实验结果
结论
HumanDreamer是一个用于生成人体运动视频的开创性解耦框架,它将文本控制的灵活性与姿势引导的可控性融为一体。利用最大的人体运动姿势生成数据集 MotionVid,训练 MotionDiT 生成结构化姿势。论文引入了 LAMA 损失函数来改进语义对齐,确保输出的一致性。实验结果表明,在 Pose-to-Video 中使用生成的姿势可以生成高质量、多样化的人体运动视频,超越了当前的基准。这些发现证实了提出的解耦框架的有效性和适应性,有助于实现多样化的视频生成。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论