AI I024: 港科大&快手等提出UnityVideo，单一框架实现文字转视频、可控生成、模态估计等多任务SOTA，代码模型已开源。

2025年12月21日星期日

港科大&快手等提出UnityVideo，单一框架实现文字转视频、可控生成、模态估计等多任务SOTA，代码模型已开源。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

由香港科技大学、香港中文大学、清华大学、快手科技 Kling 团队提出的UnityVideo是一个统一的通用框架，用于多任务多模态视频理解，它能够：

文字转视频：根据文字描述创建高质量视频
可控生成：利用多种模式对视频生成进行精细控制
模态估计：从视频中估计深度、法线和其他模态
零样本泛化：无需额外训练即可对新物体和风格进行强泛化该统一架构在多个视频生成基准测试中实现了最先进的性能，同时保持了效率和可扩展性。

UnityVideo框架总结

✅统一框架：单一模型处理多种视频理解任务
✅多模态支持：无缝处理文本、图像和视频输入
✅具有世界意识的一代：增强了对物理的理解和一致性
✅灵活控制：支持各种控制信号（深度、边缘、姿态等）
✅高品质：一流的视觉质量和时间一致性
✅高效训练：联合多任务学习提高了数据效率

介绍

近期视频生成模型展现出令人印象深刻的合成能力，但仍受限于单模态条件，从而限制了它们对世界的整体理解。这源于跨模态交互不足以及模态多样性有限，无法全面表示世界知识。

为了解决这些限制，论文提出了 UnityVideo，一个用于世界感知视频生成的统一框架，它能够联合学习多种模态（分割掩码、人体骨骼、DensePose、光流和深度图）和训练范式。该方法包含两个核心组件：(1) 动态噪声，用于统一异构训练范式；(2) 模态切换器，带有上下文学习器，能够通过模块化参数和上下文

学习实现统一处理。论文贡献了一个包含 130 万个样本的大规模统一数据集。通过联合优化，UnityVideo 加速了收敛，并显著增强了对未见过数据的零样本泛化能力。证明了 UnityVideo 能够实现卓越的视频质量、一致性和与物理世界约束的更佳对齐。

方法概述

UnityVideo采用了一种统一的多模态多任务学习框架，该框架包括：

多模态编码器：可处理多种输入模态（文本、图像、视频）
统一Transformer主干：跨任务共享表征学习
任务专用解码器：用于不同生成和估计任务的专用解码器
联合训练策略：同时优化所有任务这种架构能够实现知识共享，并提高不同视频理解任务的泛化能力。

结果

上下文学习器将分割结果推广到未见过的对象，而统一训练则增强了对RGB视频的深度和语义理解。

结论

UnityVideo是一个统一的框架，它在单个扩散变换器中对多种视觉模态和任务进行建模。通过利用模态自适应学习，UnityVideo 实现了 RGB 视频和辅助模态（深度、光流、分割、骨架和 DensePose）之间的双向学习，从而在两种任务之间实现了相互增强。实验表明，UnityVideo 在各种基准测试中均取得了最先进的性能，并且对未见过的模态组合具有很强的零样本泛化能力。为了支持这项研究，论文贡献了 OpenUni，一个包含 130 万个同步样本的大型多模态数据集，以及 UniBench，一个带有真实标注的高质量评估基准。UnityVideo 为统一的多模态建模铺平了道路，是迈向下一代世界模型的重要一步。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024

2025年12月21日星期日

港科大&快手等提出UnityVideo，单一框架实现文字转视频、可控生成、模态估计等多任务SOTA，代码模型已开源。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

UnityVideo框架总结

相关链接

介绍

方法概述

结果

结论

没有评论:

发表评论

建议收藏！全网最强 AI 资源包：GPT-5。2、Claude 4。5、科研绘图神器，通通国内直连！