如您有工作需要分享,欢迎联系:aigc_to_future
作者:Junfei Xiao等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2507.18634
项目链接:https://thecinema.ai/
本电影短片讲述了布鲁斯·韦恩、小丑与阿尔弗雷德·潘尼沃斯穿越宇宙的星际史诗之旅。基于给定的叙事文本描述,我们的模型首先生成具有连续性的关键帧场景,随后执行交错条件视频生成,最终输出具有卓越视觉一致性的无缝多场景电影。
仅文本长上下文调优 vs 交错条件长上下文调优
亮点直击
创新的分层式生成架构: 通过自上而下的关键帧规划和自下而上的视频合成相结合,实现了电影内容从宏观叙事到微观细节的全方位把控。在保证长视频连贯性的同时,完美平衡了全局故事结构和局部视觉细节。 突破性的长视频处理技术:独创GoldenMem记忆压缩机制成功解决了长视频生成中的上下文爆炸问题。即使在48帧的超长上下文中,系统仍能保持93%以上的视觉一致性,远超现有技术方案,为长视频生成树立了新标杆。 卓越的泛化与创作能力: 系统不仅支持常规视频生成,更能实现跨电影宇宙的角色替换和原创场景构建。为AI影视创作开辟了全新可能,让以前需要专业团队才能实现的创意构想变得触手可及。
总结速览
解决的问题
长视频叙事连贯性不足:现有视频生成技术(如扩散模型、自回归模型)主要关注短片段生成,难以保持长视频的故事情节和视觉一致性。 长程依赖建模困难:生成多场景、长叙事的电影时,模型易出现上下文爆炸、情节断裂或角色/场景视觉漂移问题。 缺乏电影级生成支持:现有方法未针对电影特有的多场景、长时序、高一致性需求进行优化。
提出的方案
分层生成框架: 自上而下关键帧规划(Top-down Keyframe Planning):根据文本剧情生成关键帧序列,确保全局叙事连贯性和视觉一致性。 自下而上视频合成(Bottom-up Video Synthesis):以关键帧为条件,通过长上下文视频合成模型生成动态片段,填充关键帧间的时空细节。 内存优化机制: GoldenMem:选择性压缩历史关键帧信息,解决长视频生成中的内存爆炸问题,保持角色和场景一致性。 数据与训练策略: 专用电影数据集:构建包含交错数据对的电影级数据集。 渐进式长上下文调优:适配多模态扩散Transformer(MM-DiT),稳定训练长视频数据。
应用的技术
多模态扩散Transformer(MM-DiT):支持长上下文学习的视频合成模型。 关键帧规划与插值:通过扩散模型生成关键帧,并动态合成中间帧。 内存压缩机制(GoldenMem):基于注意力机制的历史信息选择性保留与压缩。 交错训练策略:优化长视频数据的多场景联合建模能力。
达到的效果
长视频高质量生成:生成视觉连贯、叙事一致的多场景短电影,时长显著超越现有方法。 效率与稳定性:通过分层设计和内存优化,实现高效的长上下文建模,避免训练崩溃。 应用潜力:为自动化电影创作、多模态叙事生成提供了可行方案,推动影视制作与AI结合的前沿发展。
方法
电影长上下文学习
与[39, 47]主要从单一场景收集视频片段不同,本文的方法直接从整部电影中采样帧进行学习。具体而言,我们的关键帧生成模型在交错的图像-文本对上训练,而视频生成模型则从交错的视频-文本对中学习,显著提升了跨场景和电影上下文的泛化能力。
数据:本文从公开可用的资源中收集数据作为实验数据集,总时长约500小时。通过以下数据处理流程处理整部电影,生成交错的关键帧-文本对以及片段-文本对。经过处理后,获得了约30万张关键帧和视频片段,用于训练自上而下的交错关键帧生成模型)和自下而上的条件视频生成模型。
处理与过滤:本文使用PySceneDetect检测场景切换,并从每个片段中提取中间帧。去除黑边后,居中裁剪为2:1宽高比,并将短边调整为400像素。随后,使用Gemini-2.0 Flash过滤低质量或无信息帧,并为剩余关键帧生成详细描述。为了标注角色,添加了统一的<角色名称>
标签以保护IP。
自上而下交错关键帧规划
本节介绍如何微调预训练的文本到图像模型(即Flux 1.Dev),以稳定高效地生成交错关键帧。
基于MM-DiT的混合注意力掩码:本文的设计基于Flux,其模型分为D个双流(图像-文本)块和S个单流块。给定P个图像-文本对,其中,,我们将标记拼接为。
局部(双流)块:前D个块使用块对角掩码,使得仅关注自身。 全局(单流)块:将输出拼接为并传入后续S个块。训练时使用全掩码实现双向跨对注意力;生成时替换为上三角掩码以实现因果自回归。
两种掩码类型(见下图3b)使早期计算保持局部高效,而后期块聚合全局上下文,实现连贯的交错关键帧生成。
GoldenMem:压缩长上下文视觉记忆:针对电影生成,如何在上下文增长时设计生成视觉帧的长上下文记忆库是一大挑战。受黄金比例矩形启发,提出GoldenMem,通过黄金比例下采样和语义导向的上下文选择压缩长上下文视觉帧。为在不增加标记预算的情况下保持长视觉上下文,仅以全分辨率存储当前帧,并以逐渐粗粒度的尺度编码历史帧。设黄金比例为,最新隐空间表示的短边为(如),第i个历史帧的下采样比例为:
当时,这将生成逆斐波那契序列。每个的隐空间表示被划分为不重叠的块,贡献个记忆标记。由于呈几何衰减,总条件代价
始终保持在单帧成本之上的一个恒定因子。因此,GoldenMem以固定的较小开销保留了帧的历史记录,如上图3和下图4所示。
超越时间距离的语义导向上下文条件:虽然顺序生成是直观的,但电影经常采用非线性手法,如闪回、预示和时间循环。因此,本文通过语义相似性而非时间顺序检索上下文,将每个新帧的条件建立在通过CLIP(文本-图像)和T5(文本-文本)获得的嵌入上。这一策略比严格的时间条件更能有效适应复杂的叙事结构。如下图5所示,CLIP文本到图像检索在不同检索深度上始终比T5文本到文本检索具有更高的覆盖率,从而在提取重要且最相关的历史帧时实现更好的记忆召回。
逐步微调增长上下文长度:直接在长上下文交错序列上微调容易导致模型崩溃,并经常生成背景混乱、语义破碎的结果。为了在交错序列上实现稳定训练,采用渐进式训练策略,逐步在增长上下文长度的交错数据上微调模型。具体而言,我们首先通过单图像生成预热模型,然后逐步在8、16和32对交错数据上微调模型。
交错序列的动态步长采样:由于电影数据规模有限,简单地采样连续的交错电影关键帧会导致大型MM-DiT模型过拟合并降低鲁棒性。为此,采用动态步长采样策略来采样交错数据,其提供的有效数据序列数量(重叠率为25%)比简单连续采样高出数千倍。
自下而上的关键帧条件视频生成
本文的框架融合了两种互补的视角。从自下而上的角度来看,从基础视频生成器出发,通过以交错片段序列为条件,将其范围扩展到长内容。从自上而下的角度来看,我们首先构建一组稀疏的叙事关键帧作为视觉锚点,然后指导生成器填充它们之间的间隔。统一这两种视角能够在保持局部视觉保真度的同时,确保整个视频的全局叙事连贯性。
给定个关键帧(每个关键帧是其片段的起始帧),我们通过以下条件对扩散生成器进行约束:(i)平铺的全局描述,以及(ii)所有关键帧的视觉嵌入:
其中为第个镜头输出帧。多关键帧条件约束在镜头边界锚定外观,并强制跨镜头的无缝运动动态,从而生成保留叙事意图、视觉细节和时间连贯性的视频,具有强大的视觉一致性。
实验
实验设置
本文在交错电影数据集上对Flux 1.Dev进行微调以生成交错关键帧。所有关键帧模型使用32块H100 GPU训练40,000步,批量大小为32。对于交错视频生成,采用Seaweed-3B作为基础模型,并使用256块H100 GPU在多帧交错条件下微调15,000步。更多实现细节见附录。关键帧按最大面积裁剪为400×800分辨率(保持宽高比),而视频生成数据处理将所有视频调整为总像素约230,040的近似区域。自下而上和自上而下的关键帧及视频生成模型的更多训练细节见附录A。
主要结果
定性结果:下图6展示了由Gemini 2.5生成故事线的定性结果。具体而言,首先提示Gemini生成一系列长文本描述,其故事线灵感来自布鲁斯·韦恩、阿尔弗雷德·潘尼沃斯、小丑和星际旅行。随后使用交错自上而下关键帧生成模型基于叙事生成分镜头关键帧。最后,从生成内容构建交错文本-关键帧对,并将其作为LCT生成模型的条件输入以生成最终电影。结果在视觉质量、一致性和与提示的语义对齐方面表现出色。
定量评估与用户研究:本文采用VBench-2.0评估视觉和时间维度,遵循LCT协议评估文本-语义对齐。用户研究采用4级量表(优秀/良好/较差/极差),聚焦语义对齐和整体视觉质量。由于针对长视频生成的研究较少,本文主要与两个密切相关的基线比较:LCT和IC-LoRA结合I2V。为确保公平,使用GPT-4o格式化统一场景提示并为所有方法生成视频。下表1显示本文的方法在多数指标上表现优异,该结论通过评估视频质量和语义相关性的用户研究得到验证。值得注意的是,我们的优势在时间动态性上最为显著,这对电影内容创作中长序列的连贯生动运动生成至关重要。
长上下文压力测试。本文评估了模型在上下文窗口从8组扩展到48组交错对时的鲁棒性表现。针对每组设置,生成20个视频片段,并采用Gemini Flash 2.5对以下维度进行评分:一致性、视觉质量、多样性、叙事连贯性,以及VBench-2.0中的身份一致性指标。实验数据显示(见下表2),随着上下文长度增加,LCT模型质量急剧下降,而我们的模型即使在48组交错对时仍能保持>93%的8组基准一致性,这一结果充分验证了GoldenMem内存机制和渐进式微调策略的有效性(见下图7)。
消融研究
从短到长:渐进式长上下文微调
本文采用渐进式长上下文微调,逐步扩展交错关键帧生成器的上下文窗口。下图8显示,直接微调FLUX基础模型会导致训练崩溃。另一方面,从较晚的检查点(第80,000步;目标上下文长度的一半)开始微调也会产生视觉伪影,这可能是由于FLUX蒸馏基础模型的知识遗忘所致。因此,对类似FLUX的蒸馏模型进行渐进式微调需要适度预热(即第40,000步),以避免训练崩溃或遗忘继承的指导尺度条件的蒸馏知识。
GoldenMem:压缩的长上下文记忆
本文在像素级按逆斐波那契序列对历史视觉上下文进行下采样,从而限制视觉标记的总数。下表3通过不同数量的交错对消融了这一设计。GoldenMem在生成相同视觉上下文时表现出强大的计算效率,仅伴随轻微的视觉质量和一致性下降。此外,GoldenMem支持更长的上下文窗口(即从32到48而不出现OOM),为长视频生成保留了更长的上下文历史信息。
通过解耦任务建模实现鲁棒的长视频生成
本文通过多帧交错条件微调预训练的MM-DiT视频生成器作为自下而上的组件。结合自上而下的交错关键帧生成器,这一设计提高了鲁棒性,减少了伪影(下图9a),实现了环境动态的一致性(例如,燃烧的废墟与升起的烟雾,图9b)以及稳定的角色身份和平滑的摄像机运动(图9c)。这些结果表明,将高级叙事规划与低级运动合成解耦,能够实现高效且鲁棒的长视频生成。
动态步长数据采样
由于本文的电影数据集规模相对于基础模型预训练使用的数据较小,简单采样会导致快速过拟合和泛化能力弱,尤其是在稀疏关键帧条件和有限交错样本的情况下。本文通过引入动态步长采样方案来缓解这一问题,该方案在训练周期中系统地偏移采样步长。当从32帧中采样16帧序列(25%关键帧重叠阈值)时,这一策略产生了100倍以上的有效数据。
噪声视觉上下文条件
在交错关键帧生成模型训练期间,每帧应用了不同级别的噪声。因此,我们通过给定噪声潜在上下文的噪声水平消融关键帧扩展生成。如下图10所示,当在注入大量噪声(即501∼1000步)的上下文条件下,交错关键帧生成模型无法保持角色一致性。然而,在适度噪声水平(即1∼500步)下,模型表现出极强的角色一致性,而在小噪声(即添加1∼250步噪声)的长上下文条件下,角色面部保留效果最佳。
泛化能力
创意场景生成:本文的方法能够通过重组熟悉的角色、场景和情节元素,合成训练集中从未出现过的新场景。借助语义导向检索和交错条件生成,可创造出富有想象力的环境(例如被囚禁的蝙蝠侠对抗小丑控制下的哥谭市),同时通过单阶段生成保持视觉真实性与叙事合理性。模型能有效理解角色特征、典型场景和合理交互,实现新创意与连贯现实场景的无缝融合,并可通过上下文条件扩展任意场景,保持角色与场景一致性进行延续叙事。
跨电影角色替换:本文的流程支持将角色无缝替换至无关电影宇宙。利用身份保持嵌入技术,系统可将布鲁斯·韦恩和阿尔弗雷德·潘尼沃斯插入《星际穿越》的科幻环境中,使其与新场景及配角产生可信互动。这一能力证明了角色身份与场景上下文的明确分离,为反事实叙事探索提供了灵活平台。
局限性与结论
本文的方法仍存在以下限制:
缺乏端到端的图像-视频联合训练:尽管端到端优化在理论上是可行的,但现有内存和基础设施限制迫使我们分开训练帧级与视频级模块,再将生成帧作为视频合成的条件输入。 依赖外部提示:模型尚无法像先进多模态LLM那样自主设计叙事,需依赖人类作者或大语言模型提供的文本。 数据饥渴:高质量长片电影数据集的稀缺限制了方法的泛化能力,需更多真实场景验证、更大规模语料库及架构改进。
结论:Captain Cinema框架,通过自上而下的交错关键帧规划与自下而上的多关键帧条件视频合成生成短片。利用GoldenMem压缩视觉上下文、渐进式长上下文微调和动态步长采样训练策略,模型在长视频中保持全局叙事连贯性与局部视觉真实性,并展现出创意场景生成和跨电影角色替换的泛化能力。尽管存在上述局限,这项工作向全自动故事驱动电影生成迈出坚实一步,将为未来影视研究提供启发。
社会影响:长视频生成技术的普及利于高质量动画、纪录片制作、教育及仿真领域,降低传统高预算专业内容的生产门槛,为行动不便或资源有限者提供创作工具,并为强化学习和机器人仿真开辟新途径。但该技术也可能引发超真实虚假信息、非自愿媒体、知识产权侵权及高算力环境成本等问题。为降低风险,将采取模型门控发布、强水印技术、完整文档说明和严格使用政策,并开发水印验证工具、开展第三方红队审计,与利益相关方合作建立内容检测基准。
参考文献
[1] Captain Cinema: Towards Short Movie Generation
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论