Helios是北大、字节等联合开源的14B参数视频生成大模型,支持文本/图像/视频生成视频,在单卡H100上实现19.5 FPS实时生成分钟级长视频,通过深层压缩流与简易防漂移技术解决长视频漂移问题,训练/推理代码及模型权重已全面开源,适合AI开发者与视频创作者使用。
Tags:
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Shenghai Yuan等
GitHub: https://github.com/PKU-YuanGroup/Helios
项目主页: https://pku-yuangroup.github.io/Helios-Page
Demo: https://huggingface.co/spaces/BestWishYsh/Helios-14B-RealTime
论文链接: https://arxiv.org/abs/2603.04379
亮点直击
长视频防漂移的鲁棒性:Helios 能够在不依赖常见的防漂移启发式方法(如自强制、错误库或关键帧采样)的情况下,生成具有强时间连贯性的分钟级视频。这得益于明确模拟漂移和消除重复运动的新颖训练策略。 实时生成:该模型在不使用 KV 缓存、稀疏/线性注意力或量化等标准加速技术的情况下,实现了实时速度。这主要归因于对历史和噪声上下文的深度压缩、采样步骤的减少以及基础设施层面的优化。 高效训练:Helios 可以在没有并行或分片框架的情况下进行训练,允许图像扩散规模的批处理大小,同时将多达四个 14B 模型适配到 80 GB 的 GPU 内存中。 Helios 引入了一种统一的输入表示,原生支持文本到视频 (T2V)、图像到视频 (I2V) 和视频到视频 (V2V) 任务。为了解决实时长视频生成领域缺乏标准化评估的问题,发布了 HeliosBench,一个全面的开源基准测试。
总结速览
解决的问题
在视频生成领域,主流模型通常只能生成 5-10 秒的短视频,并且生成时间长,难以达到实时性,更难以扩展到更长的视频时长而不会出现内容漂移。尽管有一些方法声称能进行实时无限视频生成,但它们通常依赖于容量有限的 1.3B 模型,这限制了其表示复杂运动和保留高频细节的能力。此外,现有方法常常依赖于"训练即推理"的自强制(Self-Forcing)等抗漂移启发式方法,这显著增加了训练成本,并且漂移的鲁棒性与训练期间使用的片段长度紧密相关,导致在训练范围之外容易出现严重漂移。
提出的方案
Helios 提出了一个 14B 模型的解决方案,旨在实现实时长视频生成,同时解决漂移和效率问题。具体方案包括:
统一历史注入(Unified History Injection):将长视频生成视为无限视频延续问题,通过表示控制(Representation Control)和引导注意力(Guidance Attention)高效地将历史上下文注入噪声上下文,从而将双向预训练模型转换为自回归生成器。 简易抗漂移(Easy Anti-Drifting):通过分析典型的漂移模式(位置漂移、颜色漂移和恢复漂移),提出简单但有效的训练策略,在训练期间明确模拟漂移,并消除重复运动的根源(例如,通过相对旋转位置编码 Relative RoPE)。 深度压缩流(Deep Compression Flow):通过多项记忆分块(Multi-Term Memory Patchification)和金字塔统一预测器-校正器(Pyramid Unified Predictor Corrector)大幅压缩历史和噪声上下文,并减少采样步骤,从而显著降低计算成本和内存消耗。 基础设施级优化:引入了进一步加速推理和训练并减少内存消耗的优化措施,使得 14B 模型能够在不使用并行或分片框架的情况下进行训练。
应用的技术
Helios 融合了多种先进技术,包括:
自回归扩散模型:作为核心架构,Helios 是一个 14B 的自回归扩散模型。 统一输入表示:通过统一输入表示,模型原生支持文本到视频(T2V)、图像到视频(I2V)和视频到视频(V2V)任务。 相对旋转位置编码(Relative RoPE):用于解决位置漂移和重复运动。 第一帧锚定(First-Frame Anchor):在训练和推理过程中保留第一帧作为全局视觉锚点,以缓解颜色漂移。 帧感知损坏(Frame-Aware Corrupt):通过模拟历史漂移来提高模型对不完美历史的鲁棒性。 多项记忆分块(Multi-Term Memory Patchification):通过分层上下文窗口压缩历史上下文。 金字塔统一预测器-校正器(Pyramid Unified Predictor Corrector):多尺度采样器,用于减少噪声上下文的冗余和计算量。 对抗分层蒸馏(Adversarial Hierarchical Distillation):纯教师强制方法,将采样步骤从 50 减少到 3。 基础设施级优化:包括 Flash Normalization 和 Flash RoPE 等 Triton 优化内核。
达到的效果
Helios 在性能上取得了显著突破:
实时性能:在单个 NVIDIA H100 GPU 上,Helios 实现了 19.5 FPS 的实时视频生成速度,甚至比一些 1.3B 模型更快。 分钟级视频生成:能够生成分钟级别的长视频,并保持高质量和强大的时间连贯性,有效克服了传统模型的漂移问题。 高质量输出:在短视频和长视频生成方面,Helios 始终优于现有方法,并在视觉质量、文本对齐和运动动态方面表现出色。 训练效率:实现了在不使用并行或分片框架的情况下训练 14B 模型,批处理大小可与图像模型相媲美。 开放基准:发布了 HeliosBench,一个包含 240 个提示的测试集,涵盖了从超短到长视频的四种时长范围,以推动社区的进一步发展和标准化评估。
Helios
在过去的一年里,Diffusion Transformers 极大地推动了视频生成的进步,甚至展现出了作为"世界模型"的潜力 。但随着大家对视频质量要求的提高,一个致命的痛点始终悬在所有开发者和创作者头顶:太慢了! 主流的视频大模型不仅难以实现实时生成,而且生成的长度往往被限制在 5 到 10 秒 。即便只是这短短几秒的视频,动辄也需要长达几十分钟的渲染合成时间 !这对于游戏引擎或交互式生成应用来说,简直是噩梦 。
但是今天,这个僵局被彻底打破!
北京大学、字节跳动、Canva 以及成都阿努智能的研究团队联合重磅推出了全新的大模型 —— Helios 。这是业界首个能够在单张 NVIDIA H100 GPU 上,以惊人的 19.5 FPS 实时运行的 14B 视频生成大模型 !
它不仅支持分钟级的超长视频生成,还在画质上完美媲美了强大的基础大模型 。
破局:三大维度的"反常规"降维打击
为什么说 Helios 是一次颠覆?因为目前社区里号称能做到"实时无限生成"的方法,大多只能依赖 1.3B 级别的小模型(比如基于 Wan2.1 1.3B) 。小模型的容量限制了它们表达复杂运动的能力,往往会导致高频细节模糊 。
而 Helios 带着 14B 的庞大参数量,硬生生地在三个关键维度实现了突破:
极致提速:不用常规加速包,照样快到起飞 为了实现实时生成,现有模型通常会使用 KV-cache、稀疏/线性注意力机制或量化等标准加速技术 。但 Helios 完全抛弃了这些常规套路。
团队提出了"深层压缩流(Deep Compression Flow)",通过"多期记忆补丁化(Multi-Term Memory Patchification)"大幅减少了历史上下文的冗余,又通过"金字塔统一预测校正器(Pyramid Unified Predictor Corrector)"减少了噪声上下文的冗余 。这使得输入到 DiT 的 token 数量急剧减少,将计算成本降到了与 1.3B 模型相当甚至更低的水平。
更狠的是,他们引入了"对抗性层次蒸馏(Adversarial Hierarchical Distillation)"技术,仅使用自回归模型作为教师,将采样步数从传统的 50 步直接砍到了 3 步。
长时保真:彻底告别长视频"崩溃" 生成长视频最怕什么?"漂移(Drifting)"!视频一长,画面位置就开始乱跑、颜色变异、画质糊成一团 。以前大家为了防漂移,不得不使用极其耗时的自强制(self-forcing)或误差库(error-banks)策略 。
Helios 给出了更优雅的"简易防漂移(Easy Anti-Drifting)"方案 :
消除重复动作: 使用"相对旋转位置编码(Relative RoPE)"解决了 RoPE 周期性与多头注意力之间的冲突,从源头掐断了画面重复 。 稳住全局色彩: 采用"首帧锚点(First-Frame Anchor)"机制,在训练和推理中始终保留第一帧作为全局视觉锚点,有效缓解颜色突变 。 模拟真实误差: 提出"帧感知破坏(Frame-Aware Corrupt)",在训练时主动对历史帧进行曝光调整、加噪或模糊等破坏,让模型提前适应不完美的历史画面,从而极大地提升了容错率 。
极致显存优化:单卡 80G 塞下 4 个 14B 模型! 训练一个 14B 的视频模型通常离不开庞大的并行计算集群和复杂的切片框架 。但 Helios 团队在基础设施层面进行了极限优化 。
令人瞠目结舌的是,他们实现了在不使用任何并行或分片框架的情况下,在单张 80GB 显存的 GPU 内最高适配了 4 个 14B 模型 !这使得模型能够使用与图像扩散模型同等规模的 Batch Size 进行训练,极大地降低了算力门槛 。
六边形战士:长短视频双杀,T2V/I2V/V2V 全能 Helios 是一个原生支持多种任务的全能选手。通过统一的输入表示控制,如果历史上下文全为零,模型就执行文本生成视频(T2V);如果只有最后一帧非零,就执行图生视频(I2V);否则执行视频生成视频(V2V) 。
为了验证 Helios 的实力,研究团队还专门构建了针对实时长视频生成的评测基准 HeliosBench,包含 240 个覆盖不同长度维度的提示词 。
实验结果毫无悬念:无论是在短视频还是长视频的生成上,Helios 始终击败了此前的各种先进方法 。它不仅速度奇快,在视觉质量、文本对齐和运动动态方面都表现卓越 。
全面开源!属于社区的狂欢
在这个闭源大模型大行其道的时代,最让人振奋的莫过于 Helios 团队的开源精神。团队Day-0支持NPU、Diffusers、vLLM、SGLang多个推理后端,并且全面开放了训练/推理代码以及模型权重。
结语:重塑视频生成格局,开启"实时世界模型"新纪元
Helios 的出现,打破了长久以来的算力与质量魔咒。它用硬核的成绩向世界证明:百亿参数规模(14B)的视频大模型,完全可以通过极致的算法与系统协同优化,在单卡 H100 上实现比 1.3B 小模型更快的实时推理(19.5 FPS),并轻松拿下分钟级的超长生成 ! 它在一个统一的框架内完美拿下了文本生视频(T2V)、图生视频(I2V)和视频生视频(V2V)三大核心任务 ,将高质量长视频的生成门槛,从"需要极其昂贵的算力集群"硬生生拉低到了"单卡可跑"。这不仅是一场底层技术的大秀,更是一张通往未来的门票。想象一下,实时交互式视频生成、下一代动态游戏引擎、甚至是真正的"实时世界模型(World Models)",都因为 Helios 的突破而变得触手可及。
参考文献
[1] Helios: Real Real-Time Long Video Generation Model
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论