2025年12月21日星期日

港科大&快手等提出UnityVideo,单一框架实现文字转视频、可控生成、模态估计等多任务SOTA,代码模型已开源。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!

图片

图片

由香港科技大学、香港中文大学、清华大学、快手科技 Kling 团队提出的UnityVideo是一个统一的通用框架,用于多任务多模态视频理解,它能够:

  • 文字转视频:根据文字描述创建高质量视频
  • 可控生成:利用多种模式对视频生成进行精细控制
  • 模态估计:从视频中估计深度、法线和其他模态
  • 零样本泛化:无需额外训练即可对新物体和风格进行强泛化 该统一架构在多个视频生成基准测试中实现了最先进的性能,同时保持了效率和可扩展性。

UnityVideo框架总结

  • ✅统一框架:单一模型处理多种视频理解任务
  • ✅多模态支持:无缝处理文本、图像和视频输入
  • ✅具有世界意识的一代:增强了对物理的理解和一致性
  • ✅灵活控制:支持各种控制信号(深度、边缘、姿态等)
  • ✅高品质:一流的视觉质量和时间一致性
  • ✅高效训练:联合多任务学习提高了数据效率

相关链接

  • 论文: https://arxiv.org/abs/2512.07831
  • 项目: https://jackailab.github.io/Projects/UnityVideo
  • 代码: https://github.com/dvlab-research/UnityVideo
  • 模型: https://huggingface.co/JackAILab/UnityVideo

介绍

图片近期视频生成模型展现出令人印象深刻的合成能力,但仍受限于单模态 条件,从而限制了它们对世界的整体理解。这源于跨模态交互不足以及模态多样性有限,无法全面表示世界知识。

为了解决这些限制,论文提出了 UnityVideo,一个用于世界感知视频生成的统一框架,它能够联合学习多种模态(分割掩码、人体骨骼、DensePose、光流和深度图)和训练范式。该方法包含两个核心组件:(1) 动态噪声,用于统一异构训练范式;(2) 模态切换器,带有上下文学习器,能够通过模块化参数和上下文

学习实现统一处理。论文贡献了一个包含 130 万个样本的大规模统一数据集。通过联合优化,UnityVideo 加速了收敛,并显著增强了对未见过数据的零样本泛化能力。证明了 UnityVideo 能够实现卓越的视频质量、一致性和与物理世界约束的更佳对齐。

方法概述

图片UnityVideo采用了一种统一的多模态多任务学习框架,该框架包括:

  • 多模态编码器:可处理多种输入模态(文本、图像、视频)
  • 统一Transformer主干:跨任务共享表征学习
  • 任务专用解码器:用于不同生成和估计任务的专用解码器
  • 联合训练策略:同时优化所有任务 这种架构能够实现知识共享,并提高不同视频理解任务的泛化能力。

结果

图片

图片上下文学习器将分割结果推广到未见过的对象,而统一训练则增强了对RGB视频的深度和语义理解。

结论

UnityVideo是一个统一的框架,它在单个扩散变换器中对多种视觉模态和任务进行建模。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频和辅助模态(深度、光流、分割、骨架和 DensePose)之间的双向学习,从而在两种任务之间实现了相互增强。实验表明,UnityVideo 在各种基准测试中均取得了最先进的性能,并且对未见过的模态组合具有很强的零样本泛化能力。为了支持这项研究,论文贡献了 OpenUni,一个包含 130 万个同步样本的大型多模态数据集,以及 UniBench,一个带有真实标注的高质量评估基准。UnityVideo 为统一的多模态建模铺平了道路,是迈向下一代世界模型的重要一步。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

建议收藏!全网最强 AI 资源包:GPT-5。2、Claude 4。5、科研绘图神器,通通国内直连!

🚀 建议收藏!全网最强 AI 资源包:GPT-5.2、Claude 4.5、科研绘图神器,通通国内直连! 🚀 建议收藏!全网最强 AI 资源包:GPT-5.2、Claude 4.5、科研绘图神器,通通国内直连! 在这个 AI 迭代以"小时"计的时代,掌...