AI I024: 北大字节开源14B视频生成模型Helios，实时生成分钟级长视频

2026年3月17日星期二

北大字节开源14B视频生成模型Helios，实时生成分钟级长视频

Helios是北大、字节等联合开源的14B参数视频生成大模型，支持文本/图像/视频生成视频，在单卡H100上实现19.5 FPS实时生成分钟级长视频，通过深层压缩流与简易防漂移技术解决长视频漂移问题，训练/推理代码及模型权重已全面开源，适合AI开发者与视频创作者使用。

Tags:

Helios

视频生成大模型

14B参数

实时生成

开源

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Shenghai Yuan等

解读：AI生成未来

GitHub: https://github.com/PKU-YuanGroup/Helios
项目主页: https://pku-yuangroup.github.io/Helios-Page
Demo: https://huggingface.co/spaces/BestWishYsh/Helios-14B-RealTime
论文链接: https://arxiv.org/abs/2603.04379

亮点直击

长视频防漂移的鲁棒性：Helios 能够在不依赖常见的防漂移启发式方法（如自强制、错误库或关键帧采样）的情况下，生成具有强时间连贯性的分钟级视频。这得益于明确模拟漂移和消除重复运动的新颖训练策略。
实时生成：该模型在不使用 KV 缓存、稀疏/线性注意力或量化等标准加速技术的情况下，实现了实时速度。这主要归因于对历史和噪声上下文的深度压缩、采样步骤的减少以及基础设施层面的优化。
高效训练：Helios 可以在没有并行或分片框架的情况下进行训练，允许图像扩散规模的批处理大小，同时将多达四个 14B 模型适配到 80 GB 的 GPU 内存中。
Helios 引入了一种统一的输入表示，原生支持文本到视频 (T2V)、图像到视频 (I2V) 和视频到视频 (V2V) 任务。为了解决实时长视频生成领域缺乏标准化评估的问题，发布了 HeliosBench，一个全面的开源基准测试。

总结速览

解决的问题

在视频生成领域，主流模型通常只能生成 5-10 秒的短视频，并且生成时间长，难以达到实时性，更难以扩展到更长的视频时长而不会出现内容漂移。尽管有一些方法声称能进行实时无限视频生成，但它们通常依赖于容量有限的 1.3B 模型，这限制了其表示复杂运动和保留高频细节的能力。此外，现有方法常常依赖于"训练即推理"的自强制（Self-Forcing）等抗漂移启发式方法，这显著增加了训练成本，并且漂移的鲁棒性与训练期间使用的片段长度紧密相关，导致在训练范围之外容易出现严重漂移。

提出的方案

Helios 提出了一个 14B 模型的解决方案，旨在实现实时长视频生成，同时解决漂移和效率问题。具体方案包括：

统一历史注入（Unified History Injection）：将长视频生成视为无限视频延续问题，通过表示控制（Representation Control）和引导注意力（Guidance Attention）高效地将历史上下文注入噪声上下文，从而将双向预训练模型转换为自回归生成器。
简易抗漂移（Easy Anti-Drifting）：通过分析典型的漂移模式（位置漂移、颜色漂移和恢复漂移），提出简单但有效的训练策略，在训练期间明确模拟漂移，并消除重复运动的根源（例如，通过相对旋转位置编码 Relative RoPE）。
深度压缩流（Deep Compression Flow）：通过多项记忆分块（Multi-Term Memory Patchification）和金字塔统一预测器-校正器（Pyramid Unified Predictor Corrector）大幅压缩历史和噪声上下文，并减少采样步骤，从而显著降低计算成本和内存消耗。
基础设施级优化：引入了进一步加速推理和训练并减少内存消耗的优化措施，使得 14B 模型能够在不使用并行或分片框架的情况下进行训练。

应用的技术

Helios 融合了多种先进技术，包括：

自回归扩散模型：作为核心架构，Helios 是一个 14B 的自回归扩散模型。
统一输入表示：通过统一输入表示，模型原生支持文本到视频（T2V）、图像到视频（I2V）和视频到视频（V2V）任务。
相对旋转位置编码（Relative RoPE）：用于解决位置漂移和重复运动。
第一帧锚定（First-Frame Anchor）：在训练和推理过程中保留第一帧作为全局视觉锚点，以缓解颜色漂移。
帧感知损坏（Frame-Aware Corrupt）：通过模拟历史漂移来提高模型对不完美历史的鲁棒性。
多项记忆分块（Multi-Term Memory Patchification）：通过分层上下文窗口压缩历史上下文。
金字塔统一预测器-校正器（Pyramid Unified Predictor Corrector）：多尺度采样器，用于减少噪声上下文的冗余和计算量。
对抗分层蒸馏（Adversarial Hierarchical Distillation）：纯教师强制方法，将采样步骤从 50 减少到 3。
基础设施级优化：包括 Flash Normalization 和 Flash RoPE 等 Triton 优化内核。

达到的效果

Helios 在性能上取得了显著突破：

实时性能：在单个 NVIDIA H100 GPU 上，Helios 实现了 19.5 FPS 的实时视频生成速度，甚至比一些 1.3B 模型更快。
分钟级视频生成：能够生成分钟级别的长视频，并保持高质量和强大的时间连贯性，有效克服了传统模型的漂移问题。
高质量输出：在短视频和长视频生成方面，Helios 始终优于现有方法，并在视觉质量、文本对齐和运动动态方面表现出色。
训练效率：实现了在不使用并行或分片框架的情况下训练 14B 模型，批处理大小可与图像模型相媲美。
开放基准：发布了 HeliosBench，一个包含 240 个提示的测试集，涵盖了从超短到长视频的四种时长范围，以推动社区的进一步发展和标准化评估。

Helios

在过去的一年里，Diffusion Transformers 极大地推动了视频生成的进步，甚至展现出了作为"世界模型"的潜力。但随着大家对视频质量要求的提高，一个致命的痛点始终悬在所有开发者和创作者头顶：太慢了！主流的视频大模型不仅难以实现实时生成，而且生成的长度往往被限制在 5 到 10 秒。即便只是这短短几秒的视频，动辄也需要长达几十分钟的渲染合成时间！这对于游戏引擎或交互式生成应用来说，简直是噩梦。

但是今天，这个僵局被彻底打破！

北京大学、字节跳动、Canva 以及成都阿努智能的研究团队联合重磅推出了全新的大模型 —— Helios 。这是业界首个能够在单张 NVIDIA H100 GPU 上，以惊人的 19.5 FPS 实时运行的 14B 视频生成大模型！

它不仅支持分钟级的超长视频生成，还在画质上完美媲美了强大的基础大模型。

破局：三大维度的"反常规"降维打击

为什么说 Helios 是一次颠覆？因为目前社区里号称能做到"实时无限生成"的方法，大多只能依赖 1.3B 级别的小模型（比如基于 Wan2.1 1.3B）。小模型的容量限制了它们表达复杂运动的能力，往往会导致高频细节模糊。

而 Helios 带着 14B 的庞大参数量，硬生生地在三个关键维度实现了突破：

极致提速：不用常规加速包，照样快到起飞为了实现实时生成，现有模型通常会使用 KV-cache、稀疏/线性注意力机制或量化等标准加速技术。但 Helios 完全抛弃了这些常规套路。

团队提出了"深层压缩流（Deep Compression Flow）"，通过"多期记忆补丁化（Multi-Term Memory Patchification）"大幅减少了历史上下文的冗余，又通过"金字塔统一预测校正器（Pyramid Unified Predictor Corrector）"减少了噪声上下文的冗余。这使得输入到 DiT 的 token 数量急剧减少，将计算成本降到了与 1.3B 模型相当甚至更低的水平。

更狠的是，他们引入了"对抗性层次蒸馏（Adversarial Hierarchical Distillation）"技术，仅使用自回归模型作为教师，将采样步数从传统的 50 步直接砍到了 3 步。

长时保真：彻底告别长视频"崩溃" 生成长视频最怕什么？"漂移（Drifting）"！视频一长，画面位置就开始乱跑、颜色变异、画质糊成一团。以前大家为了防漂移，不得不使用极其耗时的自强制（self-forcing）或误差库（error-banks）策略。

Helios 给出了更优雅的"简易防漂移（Easy Anti-Drifting）"方案：

消除重复动作：使用"相对旋转位置编码（Relative RoPE）"解决了 RoPE 周期性与多头注意力之间的冲突，从源头掐断了画面重复。
稳住全局色彩：采用"首帧锚点（First-Frame Anchor）"机制，在训练和推理中始终保留第一帧作为全局视觉锚点，有效缓解颜色突变。
模拟真实误差：提出"帧感知破坏（Frame-Aware Corrupt）"，在训练时主动对历史帧进行曝光调整、加噪或模糊等破坏，让模型提前适应不完美的历史画面，从而极大地提升了容错率。

极致显存优化：单卡 80G 塞下 4 个 14B 模型！训练一个 14B 的视频模型通常离不开庞大的并行计算集群和复杂的切片框架。但 Helios 团队在基础设施层面进行了极限优化。

令人瞠目结舌的是，他们实现了在不使用任何并行或分片框架的情况下，在单张 80GB 显存的 GPU 内最高适配了 4 个 14B 模型！这使得模型能够使用与图像扩散模型同等规模的 Batch Size 进行训练，极大地降低了算力门槛。

六边形战士：长短视频双杀，T2V/I2V/V2V 全能 Helios 是一个原生支持多种任务的全能选手。通过统一的输入表示控制，如果历史上下文全为零，模型就执行文本生成视频（T2V）；如果只有最后一帧非零，就执行图生视频（I2V）；否则执行视频生成视频（V2V）。

为了验证 Helios 的实力，研究团队还专门构建了针对实时长视频生成的评测基准 HeliosBench，包含 240 个覆盖不同长度维度的提示词。

实验结果毫无悬念：无论是在短视频还是长视频的生成上，Helios 始终击败了此前的各种先进方法。它不仅速度奇快，在视觉质量、文本对齐和运动动态方面都表现卓越。

全面开源！属于社区的狂欢

在这个闭源大模型大行其道的时代，最让人振奋的莫过于 Helios 团队的开源精神。团队Day-0支持NPU、Diffusers、vLLM、SGLang多个推理后端，并且全面开放了训练/推理代码以及模型权重。

结语：重塑视频生成格局，开启"实时世界模型"新纪元

Helios 的出现，打破了长久以来的算力与质量魔咒。它用硬核的成绩向世界证明：百亿参数规模（14B）的视频大模型，完全可以通过极致的算法与系统协同优化，在单卡 H100 上实现比 1.3B 小模型更快的实时推理（19.5 FPS），并轻松拿下分钟级的超长生成！它在一个统一的框架内完美拿下了文本生视频（T2V）、图生视频（I2V）和视频生视频（V2V）三大核心任务，将高质量长视频的生成门槛，从"需要极其昂贵的算力集群"硬生生拉低到了"单卡可跑"。这不仅是一场底层技术的大秀，更是一张通往未来的门票。想象一下，实时交互式视频生成、下一代动态游戏引擎、甚至是真正的"实时世界模型（World Models）"，都因为 Helios 的突破而变得触手可及。

参考文献

[1] Helios: Real Real-Time Long Video Generation Model

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年3月17日星期二

北大字节开源14B视频生成模型Helios，实时生成分钟级长视频

Tags:

Helios

视频生成大模型

14B参数

实时生成

开源

亮点直击

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

Helios

破局：三大维度的"反常规"降维打击

全面开源！属于社区的狂欢

结语：重塑视频生成格局，开启"实时世界模型"新纪元

参考文献

技术交流

没有评论:

发表评论

AI热点监控Skill免费安装，让Agent自动生成AI日报

标签

2026年3月17日星期二

北大字节开源14B视频生成模型Helios，实时生成分钟级长视频

Tags: Helios 视频生成大模型 14B参数 实时生成 开源

亮点直击

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

Helios

破局：三大维度的"反常规"降维打击

全面开源！属于社区的狂欢

结语：重塑视频生成格局，开启"实时世界模型"新纪元

参考文献

技术交流

没有评论:

发表评论

AI热点监控Skill免费安装，让Agent自动生成AI日报

Tags:

Helios

视频生成大模型

14B参数

实时生成

开源