AI I024: ICCV 2025 I 视频生成迈入“多段一致”新时代！TokensGen用“压缩Token”玩转长视频生成

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Wenqi Ouyang等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2507.15728
项目链接：https://vicky0522.github.io/tokensgen-webpage/

亮点直击
TokensGen，通过压缩视频Token桥接短片段生成与长程一致性。
To2V模型（片段级内容控制），基于预训练骨干网络（CogVideoX）构建的视频Tokenizer，将短片段编码为高语义密度的压缩Token。
T2To模型（长程一致性控制），创新性设计视频Token扩散Transformer，直接从文本提示生成分钟级视频的完整Token序列。
自适应FIFO-Diffusion（片段间平滑过渡），解决传统FIFO-Diffusion中因填充或帧复制导致的边界失真问题，实现影院级过渡效果。
工业级扩展性：方案支持分钟级生成，为影视/虚拟现实提供新工具。

根据文本提示，TokensGen 可生成长达 2 分钟的长视频，保持一致的动作和内容。此外，TokensGen 支持零拍摄提示引导的长视频到视频编辑。

总结速览

解决的问题

内存瓶颈：传统扩散模型生成长视频时计算开销大，难以处理分钟级内容。
长期一致性不足：现有方法（如自回归或分层生成）易导致内容漂移、运动不连贯。
片段过渡生硬：短片段直接拼接易出现边界伪影，缺乏平滑性。

提出的方案

两阶段框架：

To2V模型：基于文本和视频Token生成高质量短片段，通过视频Tokenizer（Video Tokenizer）压缩语义信息。
T2To模型：扩散Transformer一次性生成全局一致的分钟级视频Token，确保长期逻辑连贯。

自适应FIFO-Diffusion：对角去噪策略无缝衔接相邻片段，消除边界伪影。

应用的技术

视频Tokenizer：将短片段压缩为高语义密度Token，降低计算复杂度。
扩散Transformer（Diffusion Transformer）：在Token空间建模长视频的时空分布。
对角去噪（Diagonal Denoising）：改进FIFO-Diffusion，动态融合片段间重叠区域。

达到的效果

长期一致性：T2To模型全局规划内容，人物/场景保持稳定。
高效生成：Tokenizer表示减少内存占用（相比帧级建模）。
平滑过渡
兼容性：可集成其他短片段控制技术（如多提示词组合）。

TokensGen 长视频生成

概述

给定文本提示（text prompt），本文的框架生成与提示一致的长达一分钟的视频。它包含两个主要组件：To2V 和 T2To 模型（如下图3所示）。在训练阶段，首先训练 To2V（一种条件式短视频生成模型），以基于文本和视频提示控制空间布局和运动。视频Tokenizer（Video Tokenizer）从短视频片段中提取紧凑的语义Token ，随后输入扩散Transformer进行引导生成。由于这些Token比文本提示编码了更丰富的空间和运动信息，它们能更精确地控制单个片段的内容。对于长视频，我们将其分割为短视频片段，每个片段通过Tokenizer生成一系列语义Token ，形成整个视频的高效高层表示。接着训练 T2To（一种视频Token Transformer），从文本提示一次性生成这些长视频token，确保片段间的长期内容一致性。在推理阶段，首先使用 T2To 生成长视频语义Token，然后将其传递给 To2V 生成每个片段。为确保时间一致性，引入了一种自适应FIFO去噪策略（adaptive FIFO denoising strategy），用于跨片段的对角去噪（diagonal denoising）。

To2V模型：片段内内容控制

本文设计了一种条件式短视频生成模型 To2V，通过文本和视频提示引导，实现短视频生成的精确内容控制。To2V 基于预训练的文本引导视频生成模型 CogVideoX，并包含两个关键组件：

视频Tokenizer（Video Tokenizer）：将输入视频片段编码为紧凑的语义Token。
交叉注意力分支（Cross-Attention Branch）：与 CogVideoX 集成，实现语义Token与噪声潜在表示（noisy latents）之间的交叉注意力。

视频Tokenizer
视频Tokenizer由以下部分组成（如上图3右侧所示）：

3D因果变分自编码器（3D-VAE）
分块模块（Patchify Module）
重采样器（Resampler）

其中，3D-VAE和分块模块继承自CogVideo（权重固定）。它们将输入视频处理为一组token ，形状为（分别表示帧数、高度、宽度和通道数）。重采样器将压缩并重采样到更紧凑的表示空间（如下图4所示），其组成包括：

可学习的潜在表示（形状为）
4个 3D交叉注意力模块（3D Cross-Attention Module） 块，用于在和之间执行交叉注意力
投影器（Projector），将转换为（形状为，其中）

视频Tokenizer编码的语义Token 封装了输入视频的高层空间布局和运动信息，同时保持比原始视频更紧凑的尺寸。

交叉注意力分支
为有效将语义Token与 CogVideoX 结合添加了一个独立的交叉注意力分支来处理新增的语义条件。该分支包含：

语义Token自适应层归一化（Sem AdaLN）
3D交叉注意力模块（3D Cross-Attention Module）

流程如下：

反向投影（Back projection）：视频Tokenizer的语义Token 被反向投影，以匹配文本-视频嵌入组合的通道数。
拼接（Concatenation）：反向投影后的语义Token与文本-视频嵌入拼接。
调制（Modulation）：类似于文本和视觉 AdaLN，Sem AdaLN 调制语义条件嵌入，确保更好的特征对齐。
注意力（Attention）：调制后的嵌入传递给 3D文本-视频注意力（3D Text-Video Attention） 和 3D交叉注意力模块，对组合嵌入执行3D全局注意力。给定组合嵌入，输出注意力结果为，表示如下：

T2To模型：长期内容一致性

为学习长视频的长期内容和逻辑知识，本文设计了视频TokenTransformer T2To模型，用于根据输入文本提示生成代表整个长视频的语义Token 。采用 CogVideoX的相同模型结构和训练策略，但进行了以下修改：

模型的目标是生成形状为的，Token总数为。
由于时间维度的Token数量远大于空间维度，对于 3D-RoPE，重新分配隐藏状态通道给高度、宽度和时间维度，比例约为。

片段间时间一致性

若每个片段单独用对应的语义Token 去噪，模型会生成一组不连续的片段。为实现时间连续性，我们在推理阶段采用 FIFO去噪策略（FIFO-denoising strategy）。具体而言，我们采用潜在分区（latent partitioning）和前瞻去噪（lookahead denoising），类似于原始FIFO。然而，为在去噪开始时维持足够帧的队列，FIFO会在第一个片段之前的位置填充噪声增强的首帧复制。我们观察到，这种方法在我们的设置中会引入伪影，因为复制的帧偏离了视频扩散模型训练域的固有分布。

为解决这一问题，本文提出改进版 自适应FIFO（adaptive-FIFO），在去噪过程开始时采用自适应填充策略：

对于包含少于帧的潜在分区，我们同时去噪并更新所有帧。
对于恰好包含帧的分区，我们采用前瞻去噪：所有帧一起去噪，但仅更新后部分噪声较大的帧。
通过更好地对齐初始填充与模型学习到的分布，并确保部分填充分区的连续性，该方法实现了更平滑的片段过渡和更高的帧质量。

训练策略

对于 To2V模型，固定基础模型预训练模块的权重，仅训练视频Tokenizer的 重采样器（Resampler） 和 交叉注意力分支（Cross-Attention Branch）。对于 T2To模型，我们用基础模型的权重初始化，并训练所有模块。

本文采用与 CogVideoX 相似的训练策略，包括：

多分辨率帧打包（Multi-Resolution Frame Pack）
显式均匀采样（Explicit Uniform Sampling）

对于 T2To模型，我们将不同时长的视频打包到同一批次中，并应用注意力掩码（attention mask）标记有效帧，同时计算损失时也使用注意力掩码，以确保注意力模块聚焦于输入噪声潜在表示的正确区域（类似 Patch'n Pack 的方法）。对于 To2V 和 T2To模型，均采用显式均匀采样策略选择时间步（timesteps）。

实验结果

实现细节

模型架构。本文采用 CogVideoX-5B作为 To2V 和 T2To 的基模型。在 To2V 中，输入 token 的形状为。我们观察到，当较大时（例如与相当），T2To 难以收敛，因此将压缩后的语义 token 的维度设置为。对于 Resampler 中的 Projector，发现通过 PCA进行线性投影可以有效降低通道维度而不损失信息，更多分析见第 5.3 节。与原始潜在形状相比，我们实现了约的压缩率。因此，首先训练不带通道投影的 To2V，然后在 300 个样本上对 Resampler 的输出嵌入应用 PCA 以获取变换矩阵。在 T2To 中，我们设置最大块数，每块包含 49 帧，使模型可处理最多帧的视频。

数据集。本文使用 MiraData 数据集，包含带有结构化字幕的长视频。首先收集 56k 个视频，利用其密集字幕进行训练。对于 To2V 模型，我们从这些长视频中随机采样 49 帧、10 fps 的视频片段作为训练目标。对于 T2To 模型，筛选出约 16k 个高质量、至少一分钟长的视频，主要为游戏画面和自然景观。通过 PySceneDetect和人工评估过滤掉存在突兀场景切换的视频。此子集确保了长视频内部的连贯性，以训练 T2To 模型。

训练细节。本文对 T2To 和 To2V 模型均采用渐进式学习策略。对于 To2V 模型，首先在小 token 形状（）上训练 1200 次，批大小 72，学习率；随后切换到完整分辨率（）再训练 2600 次，从先前训练的模型初始化。对于 T2To 模型，从较短视频（块，每块 49 帧）开始训练 1200 次，学习率；接着扩展到最长块的长视频，训练 5000 次，学习率，批大小 105。这种渐进训练有助于模型在更复杂的长时间视频生成任务中更快收敛。

基线对比

定性比较。本文将所提方法与多种近期多提示长视频生成方法对比，包括 Video-Infinity、DiTCtrl、Kling ，以及一个在 CogVideoX 上采用 FIFO-Diffusion并搭配自适应填充策略的基线。对于多提示方法，使用 GPT-4o 将提示分割为 24 段以指导每段生成。FIFO 和本文的方法使用相同文本提示（缩写为："一个人骑马沿小径走向宁静的河流"）。结果如下图 5 所示。Video-Infinity 主要通过背景变化实现转场，但未能捕捉有意义的前景运动，人物和马在每段中基本静止，导致吸引力不足且叙事漂移。DiTCtrl 展示了间歇对齐的关键帧，但片段间转场生硬，造成突兀场景切换和情节断裂。Kling 生成视觉一致的帧，但存在异常运动（如主体突然转向）和偶尔的场景构图不连续，破坏观看体验并偏离故事主线。FIFO（CogVideoX 上带自适应填充）随着视频延长出现逐渐过饱和及外观或色彩方案的突变，在生成复杂场景的数百帧时尤为明显。相比之下，本文的方法实现了更平滑的运动转场和主体表现，在整个分钟级序列中始终贴合提示。

定量比较

本文在 MiraData测试集中随机选取 100 条提示进行定量对比研究。如下表 1 所示，本文的方法在 VBench 的 Motion Smoothness 和 Dynamic Degree 指标上均获得最高分。注意到 VBench 中部分指标（如 Subject and Background Consistency 和 Temporal Flickering）可能对动态性较弱的视频评分更高，因此我们进一步开展用户研究以全面评估。用户研究中，为每种方法生成 12 个时长 1-2 分钟的视频结果，涵盖人物、车辆、自然场景等类别，所有视频均发布于项目网页。为确保无偏反馈，将视频随机排序后交由 24 名参与者评估，从文本-视觉对齐度、运动与内容一致性两个维度打分。如表 1 右侧所示，本文的方法在两项指标上均显著优于基线，体现了其长程控制能力。这些结果表明，本文的方法能有效保持与文本提示的语义对齐，同时在长序列中维持平滑运动与稳定内容。

消融实验

视频条件消融。本文研究了三种视频条件注入 To2V 模型的策略：(1) 压缩 token 形状，(2) 是否使用通道投影，(3) 基于超分的方法。具体实验了三种 token 形状（, , ），对比有无 Projector 模块的模型，并与直接将低清视频作为条件的超分设置对比。下图 6 显示，基于 FIFO-Diffusion 的基线常产生前后景不一致的视觉效果，凸显了仅靠潜在特征引导难以保持时空连贯性；超分方法则倾向于复制源视频的低级色彩纹理线索，无法捕捉高级语义。有无 Projector 的模型表现相近，表明基于 PCA 的投影可在不损失质量的前提下实现轻量降维。最小 token 形状（）难以保留关键布局与运动模式，增大时空分辨率（, ）显著提升语义保真度，其中在细节粒度与计算效率间达到最佳平衡（表 2 量化验证）。

FIFO 消融。本文对比三种变体：(1) 完全禁用 FIFO，(2) 使用 FIFO 但无自适应填充，(3) 完整方案（FIFO+自适应填充）。下图 7 显示，禁用 FIFO 会导致片段间场景突变，出现主体瞬移或背景跳变；移除自适应填充则会在视频初始帧引入严重伪影（因模型依赖偏离训练分布的重复帧），这些伪影会传播至后续帧。而我们的自适应填充策略使填充帧符合模型分布，有效消除片段边界的不连续现象。

长视频编辑

除生成全新内容外，本文的方法可灵活适配多种长视频编辑场景。To2V 模型能够将文本提示与源视频数据结合，在保留原始素材核心结构的同时注入新语义。如下图 8 所示，直接将目标文本提示与源视频作为输入条件生成编辑后的长视频。更多结果详见项目网页。

结论与讨论

TokensGen——一个两阶段框架，通过 To2V 模型生成文本和视频提示引导的短视频片段以捕捉细粒度运动与内容，T2To模型利用压缩语义token保持片段间长程一致性，结合自适应 FIFO-Diffusion 策略维持时序连续性，从而解决长视频生成中的片段语义控制、长程连贯性与平滑过渡等关键挑战。该流程可高效扩展预训练短视频模型至长视频场景，实现可扩展、灵活且资源高效的生成方案。

尽管 TokensGen 能有效保持长程一致性，但仍存在细粒度细节流失问题：聚焦高层语义的 token 可能导致长序列中前景对象的渐进变化（详见附录）。复杂场景中，其捕捉精细时空线索的能力可能不足，需探索超越免调参 FIFO 的细粒度 token 化与短期一致性策略。当前框架仅在游戏画面和自然景观数据集上验证，但可扩展至更大规模数据。未来工作可探索多尺度 token 化或混合表示，在保持可扩展性与资源效率的同时增强细粒度可控性。

参考文献

[1] TokensGen: Harnessing Condensed Tokens for Long Video Generation

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年7月29日星期二

ICCV 2025 I 视频生成迈入“多段一致”新时代！TokensGen用“压缩Token”玩转长视频生成