2026年4月25日星期六

CVPR 2026 Meta OneStory:一分钟生成十镜头,多镜头视频叙事连贯

Meta与哥本哈根大学提出OneStory框架,通过自适应记忆建模实现多镜头视频生成。支持文本或图像条件输入,自回归生成连贯叙事镜头。适用于视频创作者与AI研究者。在T2MSV和I2MSV基准测试中,镜头质量和叙事一致性均优于基线。核心技术包括帧选择模块与自适应条件器。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

在视频内容创作日益繁荣的今天,如何生成连贯且富有叙事性的多镜头视频成为了一个重要挑战。传统方法往往受限于有限的上下文窗口或单一关键帧条件,难以在复杂叙事中保持一致性。近日,Meta AI与哥本哈根大学的研究团队提出了OneStory框架,通过自适应记忆建模,实现了全局且紧凑的跨镜头上下文建模,为连贯且可扩展的叙事生成提供了新的解决方案。

图片

unsetunset效果展示unsetunset

图片
图片
图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2512.07802
  • 主页:https://zhaochongan.github.io/projects/OneStory

unsetunset论文介绍unsetunset

图片

现实世界中的视频叙事通常通过多个镜头展开——这些镜头看似不连续,但语义上相互关联,共同构成一个连贯的故事。然而,现有的多镜头视频生成(MSV)方法难以有效地对长距离的跨镜头上下文进行建模,因为它们依赖于有限的时间窗口或单关键帧条件,导致在复杂叙事场景下性能下降。

论文提出的 OneStory 能够对全局且紧凑的跨镜头上下文进行建模,从而实现一致且可扩展的叙事生成。OneStory 将 MSV 重新定义为下一镜头生成任务,利用预训练的图像到视频(I2V)模型进行强视觉条件化,并实现自回归镜头合成。

unsetunset方法概述unsetunset

图片模型将多镜头视频生成 (MSV) 重新定义为下一镜头生成任务。 (a)在训练过程中,模型学习如何根据前两个镜头生成最后一个镜头;当只有两个镜头可用时,会添加一个合成镜头,以实现统一的三镜头训练。 (b)在推理阶段,模型维护一个包含过去镜头的记忆库,并以自回归的方式生成多镜头视频。该模型由两个关键组件构成:(c)帧选择模块,用于从先前的镜头中选择语义相关的帧来构建全局上下文;(d)自适应条件器,用于动态压缩所选上下文并将其直接注入生成器,以实现高效的条件化。OneStory 实现了自适应记忆建模,从而能够生成全局且紧凑的跨镜头上下文,以支持连贯的叙事生成。

unsetunset实验unsetunset

定量结果

图片文本到多镜头(T2MSV)和图像到多镜头(I2MSV)两种设置下的定量结果。 最佳结果和次佳结果分别以粗体和下划线标出。在文本和图像两种条件下,我们的模型在镜头级质量和叙事一致性方面均始终优于所有基线模型,展现出卓越的多镜头生成能力。Env .表示环境一致性,BG.表示背景一致性,Avg.表示相应指标的平均值。

定性比较

图片
图片

为了公平比较,除 StoryDiff.+Wan2.1 外,所有给定的多镜头生成方法均使用相同的初始条件作为第一镜头。StoryDiff.+Wan2.1 不依赖于视觉条件反射。因此,在图像到多镜头的设置中(示例 3 和 4),StoryDiff.+Wan2.1 仅使用文本条件反射进行演示,而其他所有方法均使用文本和图像条件反射。基线方法无法保持镜头间的叙事一致性,在提示遵循性、重复出现和场景构图方面存在不足,而我们的模型(Ours)能够忠实地遵循镜头级别的说明文字,并生成连贯的镜头。每个提示文字的代表性片段均与相应的镜头一起给出。

unsetunset结论unsetunset

OneStory框架通过自适应记忆建模,有效解决了多镜头视频生成中的长距离跨镜头上下文建模难题。其创新的Frame Selection和Adaptive Conditioner模块,使模型能够在复杂叙事中保持一致性,同时支持文本和图像条件下的高效生成。实验结果表明,OneStory在多个基准测试中均取得了优异表现,为连贯且可扩展的叙事生成提供了新的技术路径。未来,随着数据集的扩大和模型优化,OneStory有望在视频内容创作领域发挥更大作用,推动沉浸式长视频叙事的发展。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

Kimi K2。6深度实测:300个Agent协同,1小时完成券商研报与论文工作台

Kimi K2.6上线并开源,实测其300个Agent集群自动拆解任务、并行协作。模拟券商研究所:1.25小时产出97页PDF研报、11张Sheet估值Excel、26页PPT及HTML可视化看板。模拟科研工具:45分钟生成论文工作台前端页面(含开屏动画、3D可视化、参考文献悬停...