北大与字节跳动开源14B参数视频生成模型Helios,支持文生视频、图生视频和视频续写。单张NVIDIA H100 GPU即可实时生成19.5 FPS的分钟级长视频,无需复杂加速技术。代码和模型已开源,适合AI研究者和开发者探索使用。
Tags:
一句话总结:14B大模型 + 单张H100 + 19.5 FPS实时生成 + 分钟级长视频,Helios 用「极简设计」同时搞定质量、速度与显存,开源代码+模型已发布!
视频生成领域又迎来重磅开源!由北大、字节发布的 Helios,是首个在单张NVIDIA H100 GPU上实现19.5 FPS实时推理的14B参数视频生成模型。它原生支持文生视频(T2V)、图生视频(I2V)和视频续写(V2V),无需自强制、关键帧采样等复杂技巧即可稳定生成长视频,无需KV缓存、稀疏注意力等加速方案也能实时运行,更无需多卡并行即可在80GB显存内同时训练4个14B模型。
相关链接
论文:https://arxiv.org/pdf/2603.04379 主页:https://pku-yuangroup.github.io/Helios-Page 仓库:https://github.com/PKU-YuanGroup/Helios 试用:https://huggingface.co/spaces/BestWishYsh/Helios-14B-RealTime
论文介绍
Helios 是首个在单个NVIDIA H100 GPU 上以 19.5 FPS 运行的 14B 视频生成模型 ,支持分钟级视频生成,同时还能达到与优秀基线模型相当的质量。 该方法在三个关键维度上取得了突破:
无需使用常用的抗漂移启发式方法 (例如自强制、误差库或关键帧采样),即可有效应对长视频漂移; 无需使用标准加速技术 (例如键值缓存、稀疏/线性注意力机制或量化),即可实现实时 生成; 无需并行或分片框架即可进行训练,从而能够在 80 GB GPU 内存内同时运行多达四个 14B 模型,并支持图像扩散尺度的批处理大小。
具体而言, Helios是一个14B 自回归扩散模型, 具有统一的输入表示,原生支持 T2V、I2V 和 V2V 任务。为了缓解长视频生成中的漂移问题,论文分析了典型的故障模式,并提出了简单而有效的训练策略。这些策略在训练过程中显式地模拟漂移,同时从源头上消除重复运动。为了提高效率,对历史噪声上下文进行了大幅压缩,并减少了采样步数,从而使计算成本与 13 亿个视频生成模型相当甚至更低。此外论文还引入了基础架构层面的优化,在加速推理和训练的同时,降低了内存消耗。大量实验表明Helios在短视频和长视频生成方面均始终优于现有方法。
方法概述
Helios 的架构。Helios 是一个基于引导注意力机制的自回归视频扩散变换器。它通过多项记忆块化和金字塔统一预测器校正器压缩历史上下文和噪声上下文,从而降低开销,同时通过表征控制统一 T2V、I2V 和 V2V 任务。
对抗性分层蒸馏流水线。该框架基于DMD,并进行了改进,例如:纯教师强制、分阶段反向模拟、由粗到精的学习和对抗性后训练。
实验结果
对 81 帧短视频进行定性比较(第一部分)。即使作为精简版模型,Helios 在视觉质量、运动动态和自然度方面也与基础模型持平,甚至更胜一筹。
对 81 帧短视频的定性比较(第二部分)。尽管 Helios 是一个精简模型,但它在视觉保真度、文本对齐和整体真实感方面,均达到或超过了基础模型。
对 120、240、720 和 1440 帧长的视频进行定性比较(第一部分)。结果表明,Helios 在真实感和自然度方面始终优于基准模型。
在单个 H100 上测试各种视频生成模型的端到端吞吐量(FPS)。 结果在相同分辨率下获得,并采用了所有官方加速技术,包括 FlashAttention、torch compile 和 KV-cache。Helios 的速度明显快于同等规模的其他模型,并且与规模较小的精简模型的速度相当。
Helios 及其同类模型的基准性能对比。 无论是短视频还是长视频生成,Helios 的性能始终优于现有的精简模型,同时还能达到与基础模型相当的水平。
结论
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论