复旦大学联合上海人工智能研究院开源Omni-Video 2,将多模态大语言模型与扩散模型深度融合,实现视频生成与编辑任务的统一。模型支持零样本指令跟随,能根据自然语言指令进行物体替换、风格迁移等精细化编辑,在VBench综合评分中达88.5%,时序一致性显著优于现有模型。适合AI研究者、视频创作者及AIGC开发者,代码与模型已开放。
Tags:
在视频生成领域,我们长期面临"生成模型不懂复杂指令,编辑模型缺乏创造力"的困境。 由复旦大学联合上海人工智能研究院推出Omni-Video 2,创造性地将多模态大语言模型(MLLM)与扩散模型(Diffusion Model)深度融合,通过大规模 Scaling,实现了视频生成与视频编辑任务的统一。它不仅能根据文本生成高质量视频,更能精准理解复杂的自然语言指令,对现有视频进行物体替换、风格迁移、动作调整等精细化编辑,真正做到了"所想即所得"的视频创作自由!
效果展示
相关链接
论文:https://arxiv.org/pdf/2602.08820
代码:https://github.com/SAIS-FUXI/Omni-Video
主页:https://howellyoung-s.github.io/Omni-Video2-project
模型:https://huggingface.co/Fudan-FUXI/OmniVideo2-A14B/tree/main
论文介绍
论文提出了一种统一的视频编辑和生成框架,该框架将文本到视频的DiT骨干网络与视觉语言理解相结合,以实现精确、可控的编辑。视觉语言模型(VLM)读取源视频和编辑指令,预测预期编辑结果的详细字幕,将稀疏的提示信息转换为关于内容、属性和时间变化的显式语义。然后,DiT模型使用混合交叉注意力机制,将源VAE潜在信息(可选地与其他线索连接)与扩展的文本语义相结合,以在保持视频身份、布局和运动的同时,实现灵活的控制。由此形成了一个支持文本到视频、视频到视频编辑以及混合条件生成的单一流程。
方法概述
实验
定量评估
在 VBench 综合评分中达到 88.5%,刷新多项记录。 在视频编辑任务(如 EditBench)中,指令遵循度(Instruction Following)比前代模型提升 40% 以上。 时序一致性指标(Temporal Consistency)显著优于现有开源及闭源模型。
定性对比
复杂指令执行:能准确处理包含多重约束的长难句指令,逻辑清晰。 高保真编辑:在更换物体属性时,光影、反射及物理运动规律高度逼真,几乎无法察觉合成痕迹。 零样本泛化:对于训练集中未出现的罕见物体或风格,依然能生成高质量结果。
结论
Omni-Video 2 的发布标志着视频 AIGC 进入了"理解即生成"的新阶段:
智能理解:MLLM 的加持让模型真正"看懂"了视频和指令,不再仅仅是像素的搬运工。 统一范式:打破了生成与编辑的界限,一个模型通吃所有视频创作需求,极大简化了工作流。 Scaling 效应:证明了在视频领域,随着模型规模和数据量的增加,智能水平和生成质量仍在持续跃升。 开源生态:代码与模型的开放将加速社区创新,推动视频大模型在影视制作、广告营销、游戏开发等领域的落地应用。
未来,随着多模态能力的进一步进化,Omni-Video 2 这类模型有望成为每个人手中的"超级视频导演",让创意不再受限于技术门槛。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论