添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!
扫描下方二维码,加入AIGC Studio知识星球!可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!
由香港科技大学、香港中文大学、清华大学、快手科技 Kling 团队提出的UnityVideo是一个统一的通用框架,用于多任务多模态视频理解,它能够:
文字转视频:根据文字描述创建高质量视频 可控生成:利用多种模式对视频生成进行精细控制 模态估计:从视频中估计深度、法线和其他模态 零样本泛化:无需额外训练即可对新物体和风格进行强泛化 该统一架构在多个视频生成基准测试中实现了最先进的性能,同时保持了效率和可扩展性。
UnityVideo框架总结
✅统一框架:单一模型处理多种视频理解任务 ✅多模态支持:无缝处理文本、图像和视频输入 ✅具有世界意识的一代:增强了对物理的理解和一致性 ✅灵活控制:支持各种控制信号(深度、边缘、姿态等) ✅高品质:一流的视觉质量和时间一致性 ✅高效训练:联合多任务学习提高了数据效率
相关链接
论文: https://arxiv.org/abs/2512.07831 项目: https://jackailab.github.io/Projects/UnityVideo 代码: https://github.com/dvlab-research/UnityVideo 模型: https://huggingface.co/JackAILab/UnityVideo
介绍
近期视频生成模型展现出令人印象深刻的合成能力,但仍受限于单模态 条件,从而限制了它们对世界的整体理解。这源于跨模态交互不足以及模态多样性有限,无法全面表示世界知识。
为了解决这些限制,论文提出了 UnityVideo,一个用于世界感知视频生成的统一框架,它能够联合学习多种模态(分割掩码、人体骨骼、DensePose、光流和深度图)和训练范式。该方法包含两个核心组件:(1) 动态噪声,用于统一异构训练范式;(2) 模态切换器,带有上下文学习器,能够通过模块化参数和上下文
学习实现统一处理。论文贡献了一个包含 130 万个样本的大规模统一数据集。通过联合优化,UnityVideo 加速了收敛,并显著增强了对未见过数据的零样本泛化能力。证明了 UnityVideo 能够实现卓越的视频质量、一致性和与物理世界约束的更佳对齐。
方法概述
UnityVideo采用了一种统一的多模态多任务学习框架,该框架包括:
多模态编码器:可处理多种输入模态(文本、图像、视频) 统一Transformer主干:跨任务共享表征学习 任务专用解码器:用于不同生成和估计任务的专用解码器 联合训练策略:同时优化所有任务 这种架构能够实现知识共享,并提高不同视频理解任务的泛化能力。
结果
上下文学习器将分割结果推广到未见过的对象,而统一训练则增强了对RGB视频的深度和语义理解。
结论
UnityVideo是一个统一的框架,它在单个扩散变换器中对多种视觉模态和任务进行建模。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频和辅助模态(深度、光流、分割、骨架和 DensePose)之间的双向学习,从而在两种任务之间实现了相互增强。实验表明,UnityVideo 在各种基准测试中均取得了最先进的性能,并且对未见过的模态组合具有很强的零样本泛化能力。为了支持这项研究,论文贡献了 OpenUni,一个包含 130 万个同步样本的大型多模态数据集,以及 UniBench,一个带有真实标注的高质量评估基准。UnityVideo 为统一的多模态建模铺平了道路,是迈向下一代世界模型的重要一步。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论