AI I024: 北大字节开源14B视频生成模型Helios，单H100实时生成分钟级长视频

2026年3月12日星期四

北大字节开源14B视频生成模型Helios，单H100实时生成分钟级长视频

北大与字节跳动开源14B参数视频生成模型Helios，支持文生视频、图生视频和视频续写。单张NVIDIA H100 GPU即可实时生成19.5 FPS的分钟级长视频，无需复杂加速技术。代码和模型已开源，适合AI研究者和开发者探索使用。

Tags:

视频生成模型

北京大学

字节跳动

实时视频生成

AI开源

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

一句话总结：14B大模型 + 单张H100 + 19.5 FPS实时生成 + 分钟级长视频，Helios 用「极简设计」同时搞定质量、速度与显存，开源代码+模型已发布！

视频生成领域又迎来重磅开源！由北大、字节发布的 Helios，是首个在单张NVIDIA H100 GPU上实现19.5 FPS实时推理的14B参数视频生成模型。它原生支持文生视频（T2V）、图生视频（I2V）和视频续写（V2V），无需自强制、关键帧采样等复杂技巧即可稳定生成长视频，无需KV缓存、稀疏注意力等加速方案也能实时运行，更无需多卡并行即可在80GB显存内同时训练4个14B模型。

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2603.04379
主页：https://pku-yuangroup.github.io/Helios-Page
仓库：https://github.com/PKU-YuanGroup/Helios
试用：https://huggingface.co/spaces/BestWishYsh/Helios-14B-RealTime

unsetunset论文介绍unsetunset

Helios 是首个在单个NVIDIA H100 GPU 上以 19.5 FPS 运行的 14B 视频生成模型，支持分钟级视频生成，同时还能达到与优秀基线模型相当的质量。该方法在三个关键维度上取得了突破：

无需使用常用的抗漂移启发式方法（例如自强制、误差库或关键帧采样），即可有效应对长视频漂移；
无需使用标准加速技术（例如键值缓存、稀疏/线性注意力机制或量化），即可实现实时生成；
无需并行或分片框架即可进行训练，从而能够在 80 GB GPU 内存内同时运行多达四个 14B 模型，并支持图像扩散尺度的批处理大小。

具体而言， Helios是一个14B 自回归扩散模型，具有统一的输入表示，原生支持 T2V、I2V 和 V2V 任务。为了缓解长视频生成中的漂移问题，论文分析了典型的故障模式，并提出了简单而有效的训练策略。这些策略在训练过程中显式地模拟漂移，同时从源头上消除重复运动。为了提高效率，对历史噪声上下文进行了大幅压缩，并减少了采样步数，从而使计算成本与 13 亿个视频生成模型相当甚至更低。此外论文还引入了基础架构层面的优化，在加速推理和训练的同时，降低了内存消耗。大量实验表明Helios在短视频和长视频生成方面均始终优于现有方法。

unsetunset方法概述unsetunset

Helios 的架构。Helios 是一个基于引导注意力机制的自回归视频扩散变换器。它通过多项记忆块化和金字塔统一预测器校正器压缩历史上下文和噪声上下文，从而降低开销，同时通过表征控制统一 T2V、I2V 和 V2V 任务。

对抗性分层蒸馏流水线。该框架基于DMD，并进行了改进，例如：纯教师强制、分阶段反向模拟、由粗到精的学习和对抗性后训练。

unsetunset实验结果unsetunset

对 81 帧短视频进行定性比较（第一部分）。即使作为精简版模型，Helios 在视觉质量、运动动态和自然度方面也与基础模型持平，甚至更胜一筹。对 81 帧短视频的定性比较（第二部分）。尽管 Helios 是一个精简模型，但它在视觉保真度、文本对齐和整体真实感方面，均达到或超过了基础模型。对 120、240、720 和 1440 帧长的视频进行定性比较（第一部分）。结果表明，Helios 在真实感和自然度方面始终优于基准模型。