AI I024: NeurIPS`25 Oral I 超越HunyuanVideo！字节开源首个工业级720p视频生成自回归模型

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Jinlai Liu等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2511.04675
开源链接：https://github.com/FoundationVision/InfinityStar

🌟 亮点直击
首次实现多任务统一的离散自回归视频生成：InfinityStar，首个在单一离散自回归架构中无缝统一T2I、T2V、I2V、视频外推与长交互生成的模型，突破传统范式割裂的局限。
工业级720p视频生成的里程碑：首个能生成工业级720p、高动态视频的离散自回归模型，在VBench基准上取得 83.74 分，超越HunyuanVideo。
效率飞跃：生成5秒钟720p视频仅需 58秒，较扩散模型 Wan-2.1提速 32倍，较自回归模型 Nova提速 6倍，实现质量与效率的双重突破。
开创性架构设计：通过"时空金字塔"实现视觉外观与运动动态的显式解耦，奠定未来高效视频生成的新范式。

🧩 解决的问题

当前视觉生成领域面临三大核心矛盾：

扩散模型的"慢"与"僵"：依赖数十至数百次迭代去噪，推理延迟高，易产生抖动，难以扩展至长序列、交互式或运动外推任务。
传统自回归模型的"低质"与"低效"：逐token生成（数万步）导致延迟极高，视觉细节模糊、动态失真；且图像与视频模型无法共享参数，训练成本高。
任务割裂的"冗余"：T2I、T2V、I2V长期依赖独立模型，知识无法迁移，系统臃肿。

InfinityStar 的目标是构建一个：高保真、高效率、长序列、多任务通用的统一生成引擎。

🛠 提出的方案

图 1：InfinityStar 的时空金字塔模型。InfinityStar 采用统一的自回归管道，能够在一个模型中完成文本到图像、文本到视频、图像到视频、视频外推等任务。

本文的解决方案是构建时空金字塔自回归建模框架（Spacetime Pyramid Modeling），其核心思想是显式解耦空间结构与时间动态。

将任意视频视为一个首帧图像金字塔（T=1，编码静态外观） + 多个时间片段金字塔（T>1，编码后续运动）的组合。
每一金字塔结构沿空间尺度（h×w）递增，而时间维度对每个片段保持固定，仅在片段间递进。
模型分两阶段自回归生成：

帧内生成：在单一片段内，按尺度顺序出生（从粗到细）预测残差 token，构建视觉细节；
片段间生成：在片段之间，以先前片段和文本为条件，按顺序延拓时间，实现无限长视频。

基于此结构，相同的Transformer架构，可直接应用于T2I（仅一帧）、T2V（多片段）、I2V（以输入图像为首帧）等所有任务，实现参数与能力的统一。

该设计首次在离散自回归框架中，实现了生成行为与任务类型之间的无缝切换。

⚙️ 应用的技术

为实现上述方案，本文设计并整合了四项关键技术：

技术名称	机制	目的
从连续视频VAE继承知识	在预训练的连续视频VAE编码器和解码器之间插入二元球形量化器（Binary Spherical Quantization），不引入新参数或码本，直接复用VAE的视觉表征能力。	解决离散分词器"冷启动"问题，使离散表示快速逼近连续空间的语义，训练收敛速度显著提升，VT质量PSNR从29.1提升至33.4。
随机量化器深度（Stochastic Quantizer Depth, SQD）	在训练分词器时，以概率 p 随机丢弃最后 N 个量化尺度。训练中形成种不同深度的尺度组合。	强制模型在低分辨率早期尺度中存储更多语义信息，缓解"信息集中在最后几层"的不平衡问题，提升整体重建质量与Transformer优化稳定性。
语义尺度重复（Semantic Scale Repetition, SSR）	对前个低分辨率、高语义性的尺度，在生成过程中重复预测次，使这些"关键层级"获得多次迭代优化。	大幅提升生成图像的结构稳定性与复杂运动一致性（如人物动作、物体变形），是VBench得分提升5.56分的关键。
时空稀疏注意力（Spacetime Sparse Attention, SSA）	Transformer 解码时，每个新片段仅关注前一片段的最后一个尺度（而非全部历史或全部体素），形成高度稀疏的注意力图。	将上下文长度压缩至原长度的1/10以上，削减显存消耗40%以上，避免长视频生成的OOM问题，同时保持时序一致性，并实现推理速度提升1.5–2倍。

📈 达到的效果

下表为本文在关键任务上达到的性能与效率成果，全面领先于现有方法：

任务	基准测试	InfinityStar 结果	优势对比（对比对象）	显著提升
文本到图像	GenEval	0.79	比 Infinity (0.73) ↑6%	✅ 当前最高
	DPG	86.55	比 Infinity (83.46) ↑3.1%	✅ 当前最高
文本到视频	VBench	83.74	比 HunyuanVideo (83.24) ↑0.5 pt	✅ 超越扩散模型
	人类偏好 (vs. HunyuanVideo)	全面胜出	在总体质量、运动流畅、提示遵循、细节还原四维度均获更高评分	✅ 主观评估不虚
推理速度	5s, 720p	58 秒	比 Wan-2.1 (1864s) ⚡ 提速 32× 比 Nova (354s) ⚡ 提速 6×	✅ 工业级效率
零样本生成	图像→视频、视频外推	无需微调	生成结果保持强时空一致性，语义忠于输入	✅ 新能力开通

📚 方法

预备知识：用于图像生成的 Infinity 模型

Infinity将图像分解为一系列层级化的 token 块，由一个视觉自回归 Transformer（VAR Transformer）建模其依赖关系。为支持多尺度图像，Infinity 预定义了一个尺度表，其分辨率随索引 i 增大，构成图像金字塔。生成过程分为两阶段：

分词阶段：视觉分词器将原始图像编码为紧凑潜变量，再经按位多尺度残差量化器转换为 K 个离散残差 token 块。每个块含个 d 维 token，词汇规模为。
生成阶段：VAR Transformer 预测下一个残差块，条件为文本嵌入和已生成的前置块. 在每一步中，VAR 变换器都会预测一个条件概率

推理时，模型自回归运行 K 次，合并所有预测块，经分词器解码器重建图像。

用于统一生成的时空金字塔建模

将空间维度的"下一尺度预测"扩展至视频，关键挑战在于如何有效建模时间维度。直接让时间与空间同步增长（即从到）会导致卡顿；若固定时间尺度（伪时空金字塔）则会耦合外观与运动，使 T2V 学习无法共享 T2I 知识。

本文提出时空金字塔建模框架：每一视频被分解为一组序列片段。首帧被设为 T=1，构建图像金字塔，用于编码静态内容；其余片段共享固定时长 T>1，分别构建片段金字塔。每个片段内，空间尺度从增至，存在 K 个残差 token 块。所有尺度仅在空间维度扩展，时间维度保持恒定。

第一个片段内的token自回归生成为：

整个视频序列的自回归概率为：

通过此设计，模型可理论无限生成视频，并实现 T2I、T2V、I2V 的统一原生支持。

视觉分词器

视频分词器训练面临两大挑战：计算成本高（压缩数十帧）、信息分布严重不均衡（末层聚集大部分信息）。

知识继承：本文不从零训练，而是继承预训练连续视频 VAE 的编码器与解码器结构，在其间插入无参数二元球形量化器。此操作不引入额外参数（如VQ-VAE的码本），直接复现 VAE 的结构与语义表征。如图2所示，即使无微调，重建质量已显著优于从零训练或继承图像VAE的方案。微调时，将原始VAE的KL损失替换为"承诺损失+熵惩罚"，联合优化图像与视频数据，显著加速收敛。

图 2：预训练权重对重建和收敛的影响。左侧子图显示了在未进行微调的情况下使用不同预训练权重重建的帧。加载连续视频标记符的权重能达到最佳效果。右侧子图显示，使用预训练视频标记器进行训练的收敛速度明显快于其他两种策略。

随机量化器深度（SQD）：在训练中，以概率随机丢弃最后个量化尺度，形成种训练路径。此举强制模型在早期尺度中编码更多信息，缓解"末层滥用"问题。如图3所示，SQD下的早期尺度重建质量显著改善，为后续Transformer输入提供更均质的语义。

图 3：随机量化器深度的影响。子图表示使用图像金字塔中的所有标记加上剪辑金字塔中前 i 个尺度的标记重建的帧 nt。SQD 能显著提高早期尺度的重建质量。此外，早期尺度对应的是全局语义，而后期尺度负责的是局部视觉细节。

时空自回归 Transformer

为适应时空维度，提升质量与效率，本文对VAR Transformer进行三项改进。

语义尺度重复（SSR）：观察到早期尺度（如前个）承载了场景布局、主体身份等高语义信息。为此，将这个尺度在生成序列中重复预测次，实现结构精细化。由于其token占比极低，额外开销可忽略，但显著提升细节与动态真实感。

时空稀疏注意力（SSA）：为解决长序列计算爆炸，本文设计一种稀疏注意力模式：每个片段仅关注前一片段的最后一层 Token（及其对应尺度位置）。如图4所示，该方法将注意力跨度压缩至仅"当前与前一帧最后层"，有效降低自注意力复杂度，避免OOM，在192p-161帧下实现 1.5× 速度提升，并在480p下可运行（全注意内存溢出）。

📊 实验部分

本文模型在四个阶段训练：T2I预训练 → 192p/480p/720p T2V逐步微调。训练数据包括1.3亿+7000万+500万图像对，以及1600万个视频片段（其中192p为13M，480p为3M，720p为50K用于fine-tuning）。

文本到图像（T2I）：在GenEval和DPG基准上全面领先，GenEval得分达0.79（优于Infinity 0.73），DPG得分为86.55，优于所有对比模型。
文本到视频（T2V）：在VBench综合评测中，得分83.74，超越所有开源自回归模型及HunyuanVideo，实现"自回归胜扩散"的突破。

零样本能力：未做任何微调，即可完成图像→视频与视频外推任务，时序连贯、语义保真。

推理效率：单A100 GPU下，生成5秒720p视频耗时58秒（含text encoder+decoder），较Wan-2.1提速32×，较Nova提速6×。

消融实验：

SSR、SQD、时空金字塔、SSA四项技术均被证实不可或缺，尤其SSR的移除导致VBench下降5.56分，显见其关键作用。SSA解决了长视频训练的内存瓶颈，是工业应用的工程基石。

🔍 关键消融实验（基于192p小规模训练）

模型变体	VBench 总分	相对损失
完整 InfinityStar (SSR + SSA + SQD + 时空金字塔)	81.28	—
移除 SSR	75.72	−5.56
移除时空金字塔（使用伪时空）	80.30	−0.98
移除 SQD	81.07	−0.21
使用全注意力（非SSA）	80.77	−0.51
全注意力 + 192p 161帧	—	❌ OOM (内存溢出)

✅ 结论

InfinityStar，一个统一的时空自回归框架，能够合成高分辨率图像和动态、高运动性的视频。通过在纯离散架构中无缝整合空间与时间的预测，InfinityStar 支持多样化的视觉生成任务，同时保持最先进的质量与卓越的效率。广泛评估表明，InfinityStar 的性能超越了以往所有的自回归视频模型，并匹配甚至超越了领先扩散模型；在生成5秒720p视频时，其推理速度仅为扩散方法的十分之一。此外，本文将 InfinityStar 扩展至支持长时间交互式视频生成。作为首个实现工业级720p视频合成的离散自回归模型，期待InfinityStar能够推动高效、长时视频生成领域的未来研究。

📚 参考文献

[1] InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码免费加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年11月8日星期六

NeurIPS`25 Oral I 超越HunyuanVideo！字节开源首个工业级720p视频生成自回归模型