👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Jinlai Liu等
文章链接:https://arxiv.org/pdf/2511.04675
开源链接:https://github.com/FoundationVision/InfinityStar
🌟 亮点直击
首次实现多任务统一的离散自回归视频生成:InfinityStar,首个在单一离散自回归架构中无缝统一T2I、T2V、I2V、视频外推与长交互生成的模型,突破传统范式割裂的局限。 工业级720p视频生成的里程碑:首个能生成工业级720p、高动态视频的离散自回归模型,在VBench基准上取得 83.74 分,超越HunyuanVideo。 效率飞跃:生成5秒钟720p视频仅需 58秒,较扩散模型 Wan-2.1提速 32倍,较自回归模型 Nova提速 6倍,实现质量与效率的双重突破。 开创性架构设计:通过"时空金字塔"实现视觉外观与运动动态的显式解耦,奠定未来高效视频生成的新范式。
🧩 解决的问题
当前视觉生成领域面临三大核心矛盾:
扩散模型的"慢"与"僵":依赖数十至数百次迭代去噪,推理延迟高,易产生抖动,难以扩展至长序列、交互式或运动外推任务。 传统自回归模型的"低质"与"低效":逐token生成(数万步)导致延迟极高,视觉细节模糊、动态失真;且图像与视频模型无法共享参数,训练成本高。 任务割裂的"冗余":T2I、T2V、I2V长期依赖独立模型,知识无法迁移,系统臃肿。
InfinityStar 的目标是构建一个:高保真、高效率、长序列、多任务通用的统一生成引擎。
🛠 提出的方案
本文的解决方案是构建时空金字塔自回归建模框架(Spacetime Pyramid Modeling),其核心思想是显式解耦空间结构与时间动态。
将任意视频视为一个首帧图像金字塔(T=1,编码静态外观) + 多个时间片段金字塔(T>1,编码后续运动)的组合。 每一金字塔结构沿空间尺度(h×w)递增,而时间维度对每个片段保持固定,仅在片段间递进。 模型分两阶段自回归生成: 帧内生成:在单一片段内,按尺度顺序出生(从粗到细)预测残差 token,构建视觉细节; 片段间生成:在片段之间,以先前片段和文本为条件,按顺序延拓时间,实现无限长视频。 基于此结构,相同的Transformer架构,可直接应用于T2I(仅一帧)、T2V(多片段)、I2V(以输入图像为首帧)等所有任务,实现参数与能力的统一。
该设计首次在离散自回归框架中,实现了生成行为与任务类型之间的无缝切换。
⚙️ 应用的技术
为实现上述方案,本文设计并整合了四项关键技术:
| 从连续视频VAE继承知识 | ||
| 随机量化器深度 | ||
| 语义尺度重复 | ||
| 时空稀疏注意力 |
📈 达到的效果
下表为本文在关键任务上达到的性能与效率成果,全面领先于现有方法:
| 文本到图像 | 0.79 | |||
| 86.55 | ||||
| 文本到视频 | 83.74 | |||
| 全面胜出 | ||||
| 推理速度 | 58 秒 | 比 Nova (354s) ⚡ 提速 6× | ||
| 零样本生成 |
📚 方法
预备知识:用于图像生成的 Infinity 模型
Infinity将图像分解为一系列层级化的 token 块,由一个视觉自回归 Transformer(VAR Transformer)建模其依赖关系。为支持多尺度图像,Infinity 预定义了一个尺度表 ,其分辨率随索引 i 增大,构成图像金字塔。生成过程分为两阶段:
分词阶段:视觉分词器将原始图像编码为紧凑潜变量,再经按位多尺度残差量化器转换为 K 个离散残差 token 块 。每个块含 个 d 维 token,词汇规模为 。 生成阶段:VAR Transformer 预测下一个残差块 ,条件为文本嵌入 和 已生成的前置块. 在每一步中,VAR 变换器都会预测一个条件概率
推理时,模型自回归运行 K 次,合并所有预测块,经分词器解码器重建图像。
用于统一生成的时空金字塔建模
将空间维度的"下一尺度预测"扩展至视频,关键挑战在于如何有效建模时间维度。直接让时间与空间同步增长(即从 到 )会导致卡顿;若固定时间尺度(伪时空金字塔)则会耦合外观与运动,使 T2V 学习无法共享 T2I 知识。
本文提出时空金字塔建模框架:每一视频被分解为一组序列片段 。首帧 被设为 T=1,构建图像金字塔,用于编码静态内容;其余片段共享固定时长 T>1,分别构建片段金字塔。每个片段内,空间尺度从 增至 ,存在 K 个残差 token 块 。所有尺度仅在空间维度扩展,时间维度保持恒定。
第一个片段内的token自回归生成为:
整个视频序列的自回归概率为:
通过此设计,模型可理论无限生成视频,并实现 T2I、T2V、I2V 的统一原生支持。
视觉分词器
视频分词器训练面临两大挑战:计算成本高(压缩数十帧)、信息分布严重不均衡(末层聚集大部分信息)。
知识继承:本文不从零训练,而是继承预训练连续视频 VAE 的编码器与解码器结构,在其间插入无参数二元球形量化器。此操作不引入额外参数(如VQ-VAE的码本),直接复现 VAE 的结构与语义表征。如图2所示,即使无微调,重建质量已显著优于从零训练或继承图像VAE的方案。微调时,将原始VAE的KL损失替换为"承诺损失+熵惩罚",联合优化图像与视频数据,显著加速收敛。
随机量化器深度(SQD):在训练中,以概率 随机丢弃最后 个量化尺度,形成 种训练路径。此举强制模型在早期尺度中编码更多信息,缓解"末层滥用"问题。如图3所示,SQD下的早期尺度重建质量显著改善,为后续Transformer输入提供更均质的语义。
时空自回归 Transformer
为适应时空维度,提升质量与效率,本文对VAR Transformer进行三项改进。
语义尺度重复(SSR):观察到早期尺度(如前 个)承载了场景布局、主体身份等高语义信息。为此,将这 个尺度在生成序列中重复预测 次,实现结构精细化。由于其token占比极低,额外开销可忽略,但显著提升细节与动态真实感。
时空稀疏注意力(SSA):为解决长序列计算爆炸,本文设计一种稀疏注意力模式:每个片段仅关注前一片段的最后一层 Token(及其对应尺度位置)。如图4所示,该方法将注意力跨度压缩至仅"当前与前一帧最后层",有效降低自注意力复杂度,避免OOM,在192p-161帧下实现 1.5× 速度提升,并在480p下可运行(全注意内存溢出)。
📊 实验部分
本文模型在四个阶段训练:T2I预训练 → 192p/480p/720p T2V逐步微调。训练数据包括1.3亿+7000万+500万图像对,以及1600万个视频片段(其中192p为13M,480p为3M,720p为50K用于fine-tuning)。
文本到图像(T2I):在GenEval和DPG基准上全面领先,GenEval得分达0.79(优于Infinity 0.73),DPG得分为86.55,优于所有对比模型。
文本到视频(T2V):在VBench综合评测中,得分83.74,超越所有开源自回归模型及HunyuanVideo,实现"自回归胜扩散"的突破。
零样本能力:未做任何微调,即可完成图像→视频与视频外推任务,时序连贯、语义保真。
推理效率:单A100 GPU下,生成5秒720p视频耗时58秒(含text encoder+decoder),较Wan-2.1提速32×,较Nova提速6×。
消融实验:
SSR、SQD、时空金字塔、SSA四项技术均被证实不可或缺,尤其SSR的移除导致VBench下降5.56分,显见其关键作用。SSA解决了长视频训练的内存瓶颈,是工业应用的工程基石。
🔍 关键消融实验(基于192p小规模训练)
| 81.28 | ||
| −5.56 | ||
| −0.98 | ||
| −0.21 | ||
| −0.51 | ||
✅ 结论
InfinityStar,一个统一的时空自回归框架,能够合成高分辨率图像和动态、高运动性的视频。通过在纯离散架构中无缝整合空间与时间的预测,InfinityStar 支持多样化的视觉生成任务,同时保持最先进的质量与卓越的效率。广泛评估表明,InfinityStar 的性能超越了以往所有的自回归视频模型,并匹配甚至超越了领先扩散模型;在生成5秒720p视频时,其推理速度仅为扩散方法的十分之一。此外,本文将 InfinityStar 扩展至支持长时间交互式视频生成。作为首个实现工业级720p视频合成的离散自回归模型,期待InfinityStar能够推动高效、长时视频生成领域的未来研究。
📚 参考文献
[1] InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论