AI I024: 复旦开源Omni-Video 2：统一视频生成与编辑，零样本指令跟随达SOTA

2026年4月2日星期四

复旦开源Omni-Video 2：统一视频生成与编辑，零样本指令跟随达SOTA

复旦大学联合上海人工智能研究院开源Omni-Video 2，将多模态大语言模型与扩散模型深度融合，实现视频生成与编辑任务的统一。模型支持零样本指令跟随，能根据自然语言指令进行物体替换、风格迁移等精细化编辑，在VBench综合评分中达88.5%，时序一致性显著优于现有模型。适合AI研究者、视频创作者及AIGC开发者，代码与模型已开放。

Tags:

视频生成

视频编辑

AI模型

零样本

开源模型

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

在视频生成领域，我们长期面临"生成模型不懂复杂指令，编辑模型缺乏创造力"的困境。由复旦大学联合上海人工智能研究院推出Omni-Video 2，创造性地将多模态大语言模型（MLLM）与扩散模型（Diffusion Model）深度融合，通过大规模 Scaling，实现了视频生成与视频编辑任务的统一。它不仅能根据文本生成高质量视频，更能精准理解复杂的自然语言指令，对现有视频进行物体替换、风格迁移、动作调整等精细化编辑，真正做到了"所想即所得"的视频创作自由！

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2602.08820
代码：https://github.com/SAIS-FUXI/Omni-Video
主页：https://howellyoung-s.github.io/Omni-Video2-project
模型：https://huggingface.co/Fudan-FUXI/OmniVideo2-A14B/tree/main

unsetunset论文介绍unsetunset

论文提出了一种统一的视频编辑和生成框架，该框架将文本到视频的DiT骨干网络与视觉语言理解相结合，以实现精确、可控的编辑。视觉语言模型（VLM）读取源视频和编辑指令，预测预期编辑结果的详细字幕，将稀疏的提示信息转换为关于内容、属性和时间变化的显式语义。然后，DiT模型使用混合交叉注意力机制，将源VAE潜在信息（可选地与其他线索连接）与扩展的文本语义相结合，以在保持视频身份、布局和运动的同时，实现灵活的控制。由此形成了一个支持文本到视频、视频到视频编辑以及混合条件生成的单一流程。

unsetunset方法概述unsetunset

unsetunset实验unsetunset

定量评估

在 VBench 综合评分中达到 88.5%，刷新多项记录。在视频编辑任务（如 EditBench）中，指令遵循度（Instruction Following）比前代模型提升 40% 以上。时序一致性指标（Temporal Consistency）显著优于现有开源及闭源模型。

定性对比

复杂指令执行：能准确处理包含多重约束的长难句指令，逻辑清晰。
高保真编辑：在更换物体属性时，光影、反射及物理运动规律高度逼真，几乎无法察觉合成痕迹。
零样本泛化：对于训练集中未出现的罕见物体或风格，依然能生成高质量结果。

unsetunset结论unsetunset

Omni-Video 2 的发布标志着视频 AIGC 进入了"理解即生成"的新阶段：

智能理解：MLLM 的加持让模型真正"看懂"了视频和指令，不再仅仅是像素的搬运工。
统一范式：打破了生成与编辑的界限，一个模型通吃所有视频创作需求，极大简化了工作流。
Scaling 效应：证明了在视频领域，随着模型规模和数据量的增加，智能水平和生成质量仍在持续跃升。
开源生态：代码与模型的开放将加速社区创新，推动视频大模型在影视制作、广告营销、游戏开发等领域的落地应用。

未来，随着多模态能力的进一步进化，Omni-Video 2 这类模型有望成为每个人手中的"超级视频导演"，让创意不再受限于技术门槛。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年4月2日星期四

复旦开源Omni-Video 2：统一视频生成与编辑，零样本指令跟随达SOTA

Tags:

视频生成

视频编辑

AI模型

零样本

开源模型

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

unsetunset论文介绍unsetunset

unsetunset方法概述unsetunset

unsetunset实验unsetunset

定量评估

定性对比

unsetunset结论unsetunset

没有评论:

发表评论

Claude Code Skill 最佳实践：把重复工作打包成知识体检工具

标签

2026年4月2日星期四

复旦开源Omni-Video 2：统一视频生成与编辑，零样本指令跟随达SOTA

Tags: 视频生成 视频编辑 AI模型 零样本 开源模型

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

unsetunset论文介绍unsetunset

unsetunset方法概述unsetunset

unsetunset实验unsetunset

定量评估

定性对比

unsetunset结论unsetunset

没有评论:

发表评论

Claude Code Skill 最佳实践：把重复工作打包成知识体检工具

Tags:

视频生成

视频编辑

AI模型

零样本

开源模型