2025年10月28日星期二

导演之魂,端到端电影制作更进一步!港科大&蚂蚁等最新HoloCine一键生成完整电影场景

AI生成未来知识星球免费开放!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Yihao Meng等

解读:AI生成未来

图片论文链接:https://arxiv.org/pdf/2510.20822
项目链接:https://holo-cine.github.io/

图 1.仅凭文字提示,HoloCine 就能整体生成连贯的电影多镜头视频叙事。图中展示了我们模型的多功能性,包括各种原创场景(前三行)和向《泰坦尼克号》致敬的电影场景(后三行)。所有场景都表现出卓越的角色一致性和叙事连贯性。最后一排的扩展画面展示了流畅的镜头内运动和质量。
图 1.仅凭文字提示,HoloCine 就能整体生成连贯的电影多镜头视频叙事。图中展示了我们模型的多功能性,包括各种原创场景(前三行)和向《泰坦尼克号》致敬的电影场景(后三行)。所有场景都表现出卓越的角色一致性和叙事连贯性。最后一排的扩展画面展示了流畅的镜头内运动和质量。

亮点直击

  • HoloCine,这是一种通过两个专门设计的架构解锁整体生成潜力的新框架。为了实现精确的导演控制,本文的窗口交叉注意机制本地化注意力,将每个镜头的文本提示与对应的视频片段直接对齐,从而实现清晰的、以叙事为驱动的过渡。为了克服计算瓶颈,本文的稀疏镜头间自注意机制利用混合模式:在镜头内保持密集注意以确保运动连续性,同时使用基于简洁摘要的稀疏连接以实现镜头间的高效通信。该设计使计算复杂度接近于与镜头数量的线性关系,从而实现分钟级的整体生成。最后,为了训练本文的框架,开发了一个强大的数据策划 Pipeline,构建了一个大规模、分层标注的多镜头场景数据集。
  • HoloCine 在主要现有范式中显著超越了强大的基线——包括强大的预训练模型、两阶段关键帧到视频的流程,以及其他整体方法。本文方法在长期一致性、叙事忠实度和精确镜头过渡控制方面确立了新的最先进水平。消融研究进一步确认了本文新组件的关键角色:窗口交叉注意对于实现精细的导演控制至关重要,而稀疏镜头间自注意对于可扩展性至关重要,以较少的计算成本提供与完全注意力相媲美的质量。
  • 分析显示,HoloCine 展现了出色的新兴能力。这些能力包括多镜头中对角色和场景细节的持续记忆,以及对电影语言的细腻控制,表明该模型已发展出对视觉叙事的更深层次的隐含理解。通过实现分钟级的整体生成,本文工作将范式从孤立短片转变为指导完整的电影场景,为自动化、端到端电影制作铺平了道路。

总结速览

解决的问题

  • 现有的文本生成视频模型在生成单一短片方面效果良好,但在创建连贯的多镜头叙事上存在不足。这一问题制约了完整故事的讲述能力。

提出的方案

  • 提出 HoloCine 模型,通过整体生成方法确保从第一个到最后一个镜头的全局一致性,填补多镜头间"叙事差距"。

应用的技术

  • 采用窗口交叉注意机制,实现精确导演控制,对文本提示和镜头进行精准对齐。
  • 利用稀疏镜头间自注意机制(在镜头内密集注意,镜头间稀疏连接)提高效率,实现分钟级的整体生成。
  • 构建大规模、分层标注的多镜头场景数据集以加强模型训练。

达到的效果

  • 在叙事连贯性、角色和场景记忆以及电影语言掌握上设立了新标准。
  • 通过实验验证效果显著超越现有基线模型。
  • 实现从短片合成向自动化电影制作的转变,推动端到端电影创作的发展。

方法

本文目标是在单个整体处理中,从分层文本提示生成连贯的多镜头视频序列。为了实现这一目标,本文提出HoloCine,一个基于强大的 DiT 视频扩散模型 Wan2.2构建的框架。在以下章节中,本文详细介绍了数据策划和分层标注 Pipeline、用于显式镜头边界控制的窗口交叉注意机制,以及使整体生成计算高效的稀疏镜头间自注意机制。

图 2.整体生成pipeline结构,其中所有镜头潜影都是联合处理的。窗口交叉注意(Window Cross-Attention)通过将每个镜头与特定的文本提示对齐,提供精确的方向控制。稀疏镜头间自我关注(Sparse Inter-shot Self-Attention)可大幅降低计算成本,同时保持长距离一致性。
图 2.整体生成pipeline结构,其中所有镜头潜影都是联合处理的。窗口交叉注意(Window Cross-Attention)通过将每个镜头与特定的文本提示对齐,提供精确的方向控制。稀疏镜头间自我关注(Sparse Inter-shot Self-Attention)可大幅降低计算成本,同时保持长距离一致性。

数据策划和标注

多镜头视频生成的主要障碍之一是缺乏大规模、高质量的数据集。公共视频数据集通常由孤立的短视频片段组成。为了解决这一问题,本文开发了一个全面的数据策划 Pipeline,将电影和电视剧处理为结构化的多镜头数据集。

镜头分割和过滤。 本文的 Pipeline 首先从公共来源收集大量电影内容。然后,本文使用镜头边界检测算法将每个视频划分为单独的镜头,记录其开始和结束时间戳。这些片段随后进行严格的过滤过程,本文使用 [51] 移除字幕,并删除过短、过暗或美学评分低的片段。

多镜头样本组装: 为构建连贯的多镜头样本,本文从源视频中顺序分组时间上连续的镜头以形成训练样本。此分组以目标总时长(例如 5、15 或 60 秒)为指导,将镜头聚合直到达成特定容限内的阈值为止。这个过程生成了一组多样化的样本,包含不同数量的镜头,创建了用于高效训练的统一批次。最终数据集包含 40 万个样本,具有可控的镜头分布跨这些时长级别。

分层标题: 每个多镜头样本使用 Gemini 2.5 Flash 标注分层提示结构。一个全局提示描述了整体场景,包括人物、环境和剧情。接下来,一系列每镜头提示详细描述了每个镜头中的具体动作、摄像机移动和人物。特殊的 [shot cut] 标签插入在每镜头提示之间,以明确划分镜头边界。这种两级结构为模型提供了全球上下文和细粒度、时间局部化的指导。

整体多镜头生成

HoloCine 的基础是其整体生成过程,其中视频中所有镜头的潜在表示在扩散模型内同时处理。这种联合处理主要通过共享的自注意机制,使模型能够自然地保持角色身份、背景和整体风格的长距离一致性,确保所有镜头边界的连贯性。

虽然这种整体设计在保持一致性方面强大,但其实际实现需要仔细考虑两个关键方面。首先,模型需要明确的指导,以便将特定的每镜头指令与其对应的视觉片段对齐。没有机制来实现局部控制,任何给定镜头的文本指导都会被整个提示的上下文"稀释",使得难以对每镜头内容和镜头边界执行精确控制。其次,完整自注意的计算成本随着序列长度  成二次方 () 扩展,成为生成较长的分钟级视频的限制性瓶颈。

本文架构直接整合了两个专门机制来解决这些方面:用于精确导演控制的窗口交叉注意,以及用于计算效率的稀疏镜头间自注意。

窗口交叉注意

窗口交叉注意机制设计用于提供精确导演控制,同时满足两个基本需求:在每个镜头中生成什么内容,以及何时在镜头之间进行转换。它通过在视频片段与文本提示片段之间创建局部链接来实现这一点。

与其让所有视频标记关注整个文本提示,本文的机制将注意力场约束为局部对齐。这是通过基于提示的层次结构来构建注意力模式实现的。对于完整的视频标记序列,每个标记对连接的文本提示的注意力不是均匀的,而是被选择性地划分的。设  为对应于第  个镜头的查询标记。本文限制  仅关注由全局提示 () 及其对应的第  个每镜头提示 () 派生出的键值对。这一操作形式化地表达为:

图片

这种局部化的注意力为模型提供了明确的信号,以执行清晰、时间对齐的镜头转换,有效地允许文本提示来"指导"镜头的剪切。

稀疏镜头间自注意

虽然整体设计能够实现高质量生成,但在整个视频标记序列中应用完整的自注意对于较长的视频来说在计算上是不可行的。为了解决这个问题,本文提出了一种稀疏镜头间自注意机制,它可以大幅减少复杂性,同时保留必要的信息流。

本文的关键直觉是,一镜之内与一镜之间的一致性的性质是不同的。具体来说,镜内一致性需要密集的帧间时间建模,以确保平滑的运动和动作连续性。相反,镜间一致性主要涉及角色、环境和风格的持续性——这不需要一个镜头的每一帧都关注到另一个镜头的每一帧。基于此,本文构建了本文的自注意机制。

镜内注意: 在每个镜头  内,本文执行完整的双向自注意。来自镜头  的查询标记  对来自同一镜头的所有键值对  进行注意。

镜间注意: 为了促进镜头之间的信息交换,创建了一个全局上下文摘要。对于每个镜头 ,本文选择一个小的、有代表性的键值标记子集 (例如,来自该镜头第一帧的标记)。然后将所有镜头的这些摘要标记连接起来形成一个全局键值缓存 。来自镜头  的查询标记  也关注这个全局缓存。

镜头  的完整自注意公式如下:

图片这种设计大大减少了计算复杂度。如果一个视频有  个长度为  的镜头,并且每个镜头由  个标记概括,完整注意力的总复杂度将是 。然而,本文的稀疏注意力将其减少到大约 。由于 (例如一帧中的标记数)远小于 ,该复杂度显著降低,并且随着镜头数量的增加,扩展更加友好,使得整体生成分钟级及更长时间的多镜头视频成为可能。本文对选择摘要标记的方法进行了消融研究,例如使用第一帧、首尾帧或可学习的机制。

实验

对本文提出的框架 HoloCine 进行了全面的实验评估。首先描述了 HoloCine 的训练和实现细节。然后介绍了电影多镜头视频生成任务的基准和指标,展示了本文在这些基准上优越的表现。随后,分析了本文提出的关键模块的效果,包括窗口交叉注意力和稀疏镜头间自注意机制。最后,讨论了模型的一些高级能力,包括新兴的记忆能力和电影语言的可控性。

实现细节

实现细节

训练设置。 本文的框架基于具有 14B 参数的 wan2.2 构建,这是一个强大的基于 DiT 的视频扩散模型,对其进行了多镜头任务的适应。在精心策划的包含 40 万多镜头视频样本的数据集上训练模型。该数据集包括多种时长的视频(5秒、15秒和60秒),每个视频最多包含13个镜头,所有样本均在 480 × 832 的分辨率下处理。模型训练 10000 步,使用的学习率为  和线性预热计划。整个训练过程在 128 张 NVIDIA H800 GPU 上进行。为了处理如此长的视频序列训练所需的大量内存,本文采用了一种混合并行策略,使用完全分片数据并行(FSDP)来分割模型参数,并使用上下文并行性(CP)来将长标记序列分割到多个设备上。

注意力实现。 本文提出的注意力机制的实现经过优化以提升效率。对于本文的稀疏镜头间自注意力,计算成本是首要考虑,本文利用了 FlashAttention-3 中高效的 varlen(可变长度)序列功能。对于每个查询镜头,通过将其自身的密集局部标记与共享的全局摘要标记连接起来构建其对应的 Key 和 Value 上下文。这些结果变量长度序列然后被打包成单个张量,使得 GPU 能够在一次优化的内核启动中计算复杂的稀疏关注模式而没有填充标记的开销。相比之下,对于窗口交叉注意力,由于文本提示序列较短且该操作仅占总计算的一小部分,本文仅应用注意力掩码来限制注意力区域。这种方法非常有效,并且几乎没有性能损耗。

对比

设置

本文与三个类别的强基准进行比较,这些基准代表了多镜头长视频生成的主要范式:

• 预训练视频扩散模型。本文测试了强大的预训练视频扩散模型 Wan2.2 14B 在多镜头任务中的能力。本文为模型提供了完整的层次化提示(结合全局和每个镜头描述),并让其在一次运行中生成整个多镜头序列。该基准评估一个最先进的模型是否能够在没有本文提出的架构修改的情况下理解和执行多镜头指令。

• 两阶段关键帧到视频生成。该范式首先生成一组一致的关键帧,每个镜头一个,然后使用强大的 I2V 模型将它们动画化成视频剪辑。本文评估了关键帧生成阶段的两种最先进方法:StoryDiffusion,实现完整的多镜头图像序列,以及 IC-LoRA,利用上下文学习生成关键帧。为了公平对比,将基模型 wan2.2 14B 作为这两个流程的 I2V 组件。

• 整体多镜头生成。本文与最新的整体多镜头视频生成工作 CineTrans 进行比较。

为便于全面评价多镜头视频生成任务,本文构建了一个新的基准数据集。利用 Gemini 2.5 Pro 的能力生成了 100 个多样性的分层文本提示,每个提示都包含镜头转换的明确指示。该测试集覆盖了广泛的体裁和叙事结构,能够稳健评估模型在复杂序列中保持一致性和控制力的能力。为确保公平对比,本文为两阶段方法调整了层次化提示。本文通过将全局背景与特定镜头指令合并为每个镜头生成一个独特的提示。这个过程涉及解决抽象人物 ID 标签(如 [character1])到完整文本描述的转换,确保所有方法都接收到等价的语义信息。

本文注意到大多数相关工作,如 LCT、Mixture of Concept 和 Captain Cinema 并未开源。因此,直接的定量比较不可行。本文将在附录中提供与他们发表结果的定性比较。

评估指标。 从五个关键方面评估模型:总体视频质量、语义一致性(提示符合性)、镜头内一致性、镜头间一致性和转场控制。对于总体质量、提示符合性和镜头内一致性,本文使用综合的 VBench 基准。为了专门评估镜头间一致性,计算了标注包含相同角色的镜头对之间基于 ViCLIP 的相似性分数。此外,为了更好地评估模型遵循明确剪辑指令的能力,提出了剪辑准确度(SCA)指标。

定量结果。 如下表 1 所示,HoloCine 在绝大多数指标中取得了卓越的性能,确立了新的SoTA水平。它在多镜头任务的所有核心类别中都获得了最高分:转场控制、镜头间一致性、镜头内一致性和语义一致性。尽管本文注意到 StoryDiffusion+Wan2.2 在美学质量上略胜一筹,本文认为本文的整体生成方法在统一建模过程内产生所有镜头,从根本上更适合这一任务。这一架构选择正是 HoloCine 坚持一致性和控制力的原因,证明了其在创建连贯叙事上的有效性,而之前的范式曾在这方面表现挣扎。

图片

定性结果。 下图 3 中,本文通过复杂的叙事提示提供了定性比较,以说明本文方法的优越性。预训练基模型 Wan2.2 未能理解多镜头指令,只生成了一个静态镜头,没有任何过渡。两阶段方法虽然能够生成不同的图像,但在提示忠实度和长距离一致性上有困难。例如,第二镜头的提示是"女人沉思表情的中景特写",但 StoryDiffusion + Wan2.2 和 IC-LoRA + Wan2.2 都生成了男孩和女人在一起的中景。长距离一致性的问题在第 4 和第 5 镜头中尤为明显,角色的特征与初始镜头有显著的差异。提示的复杂性和视频的长度要求也对 CineTrans 构成了挑战,导致显著的图像降质,并阻碍其正确执行指定的镜头过渡。相比之下,本文的方法成功解析了层次化提示,生成了连贯的五个不同镜头的序列。如图所示,每个镜头与其对应的文本描述严格匹配,同时在整个视频中保持了高度的角色和风格一致性,展现了本文整体生成方法的有效性。

图片

与商业模型的比较。 为了进一步评估 HoloCine 的能力,本文与领先的闭源商业模型进行了定性比较。如下图 4 所示,尽管 Vidu 和 Kling 2.5 Turbo 等模型生成了视觉上令人印象深刻的片段,但它们在多镜头叙述核心任务上存在困难。面对层次化提示,它们产生了单一的连续镜头,未能理解或执行指定的镜头过渡。相比之下,HoloCine 展现了与最新的先进模型 Sora 2 同样的叙事理解和控制能力。两个模型都成功解析提示,生成了连贯的不同镜头序列——从中景过渡到戏剧性特写——同时保持高度的角色和风格一致性。这个结果验证了本文的框架在创建复杂、有导向的叙事能力方面可与该领域的领先专有解决方案媲美。

图片

消融研究

本文进行了一系列的消融研究来验证关键架构选择。定性结果如下图 5 所示。为了便于快速实验,所有消融研究均在 wan2.2 5B 模型上进行。

图片

窗口交叉注意力。 没有本文的窗口交叉注意力,此模型在镜头控制上表现出严重的退化,表现在镜头切割精度(SCA)和每个镜头的语义一致性评分显著降低。如上图 5 顶行所示,模型未能执行镜头切换,忽略了对新内容的提示指令(例如,镜头 3 的特写),并保持在初始场景中。这证实了本文的窗口化注意力对精确镜头边界和内容控制至关重要。

稀疏与全自注意力。 本文将稀疏自注意力与完整的密集注意力基线进行比较。虽然两者都能生成高质量、一致性高的视频(上图 5 第二和第四行),但全注意力模型在生成长序列方面计算成本过高。相比之下,本文的稀疏注意力机制提供了一个非常有效的平衡。它保留了绝大部分的生成质量,同时在效率和可扩展性方面提供了根本性的改进,使复杂、场景级别的生成成为可能。

镜头间总结 token。 本文的稀疏注意力设计的一个关键方面是通过总结标记促进镜头间通信,每个镜头关注所有其他镜头的首帧标记。为了验证这一点,本文训练了一个变体,限制自注意力严格在每个镜头内,不进行信息交换。这导致一致性的灾难性丧失(上图 5 第三行),老人身份和外貌在镜头间发生剧烈变化。这表明本文的镜头间总结标记机制是保持整个场景叙述连续性和角色一致性的关键组件。

高级功能

突现的记忆能力

本文的模型不仅能够生成高质量且连贯的镜头,还表现出令人惊讶的突现记忆能力。这一能力表明模型并不仅仅在学习浅显的视觉过渡,而是在构建场景和物体的隐含和持久表示。本文在三个关键方面展示了这种记忆。

视角跨场景的物体/角色恒常性。 本文的模型在不同镜头和角度间保持角色身份的一致性。例如,在下图 6(a) 中,艺术家的关键特征——她的金色头发、灰色 T 恤和围裙——在中距镜头 [镜头 2]、侧面视图 [镜头 3] 和随后微笑的镜头 [镜头 6] 中都保持不变,这表明角色表示的稳定性。

图片

长距离一致性与重现。 模型表现出强大的长距离一致性,在完全不同的镜头打断后仍能够回忆其主题。上图 6(b) 显示了 A-B-A 序列,其中 [镜头 1] 中引入的教授,在图书馆环境的干扰镜头 [镜头 2] 之后,于 [镜头 5] 中被准确再现。他独特的外貌完美地被保留,证明了记忆可以超越相邻镜头。

细粒度细节的持久性。 至关重要的是,模型的记忆扩展到细粒度的、非显著的细节中,表明了整体场景理解。如上图 6(c) 所示,一个特定的蓝色磁铁(高亮显示)出现在 [镜头 1] 的背景中。在一个介入镜头后,模型正确地回忆并在 [镜头 5] 中以原始位置呈现了完全相同的磁铁,尽管它并不是提示的核心元素。

电影语言的可控性

通过在海量的电影数据和高级描述提示上进行训练,本文的模型对电影制作技术产生了细致入微的理解。因此,它在解释和执行标准电影指令方面表现出高保真度,实现了精确的叙事和风格控制。

镜头规模控制。 模型能够准确呈现标准镜头规模。如下图 7(a) 所示,针对同一个雕像的[远景]、[中景]和[特写镜头]的提示,模型生成的输出正确对应于既定的电影定义。

图片

相机角度控制。 本文的模型精确遵循文本中指定的相机角度指令。如上图 7(b) 所示,针对同一物体的[低角度]、[眼平角度]和[高角度]描述,模型生成了对应的视图。这表明它能够将文本中的电影指令转换为场景中正确的几何相机位置。

相机运动控制。 本文的模型能够制作提示中指定的各种动态流畅的相机运动。如上图 7(c) 所示,模型准确执行这些指令以创建引人入胜的视觉叙事。例如,[向上倾斜]指令生成平滑的垂直相机运动,优雅地展现树的全高。[后退移动]指令使相机物理上向后移动,逐步展现艺术家工作室的更广范围背景。此外,[跟踪]镜头能正确地跟随一个物体的运动,在这个例子中是保持飞翔鹰在画面中心。对相机运动的掌握对于创建专业且吸引人的电影序列至关重要。

限制

虽然本文的模型在保持视觉一致性方面表现出色,但在因果推理方面存在局限。它可能无法理解某一动作应如何改变物体的物理状态。下图 8 清晰地展示了这一点。对于一个空玻璃杯[镜头 1]和正在向其倒水的动作[镜头 2],模型未能呈现出逻辑结果。相反,模型在[镜头 3]中重新生成了一个空玻璃杯,将视觉一致性置于动作的物理后果之上。这突显了未来工作的一个关键挑战:从感知一致性推进到逻辑的因果推理。

图片

结论

HoloCine 架构在文本到视频生成中弥合了"叙事鸿沟",这是一种整体框架,能够合成完整的多镜头场景以确保全局叙事一致性。本文的架构通过窗口交叉注意力机制实现了精确的导演控制,同时借助稀疏镜头间自注意机制克服了过高的计算成本,使分钟级别的生成成为可能。HoloCine 不仅在一致性和镜头控制方面建立了新的前沿,还发展出了显著的突现能力,如角色的持久记忆和对电影语言的细致理解。虽然本文的工作将因果推理识别为未来研究的关键挑战,但 HoloCine 是迈向复杂视觉叙事自动化创作的重要一步。通过实现分钟级的整体生成,它将范式从孤立的片段转向导演整个场景,使端到端影片生成成为可触及的、令人兴奋的未来。

参考文献

[1] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!

AI生成未来知识星球免费开放! 点击下方 卡片 ,关注" AI生成未来 " 👇扫码 免费加入 AI知识星球 ,如您有工作需要分享,欢迎联系: aigc_to_future 作者:UniWorld团队 解读:AI生成未来 论文链接:https://arxi...