AI I024: 字节发布视频基础大模型Seaweed，70亿参数超越同类140亿参数视频模型效果，单GPU就可生成1080P！

2025年5月18日星期日

字节发布视频基础大模型Seaweed，70亿参数超越同类140亿参数视频模型效果，单GPU就可生成1080P！

Seaweed 是"Seed-Video"的缩写，是一项旨在构建视频生成基础模型的研究成果。

Seaweed 是"Seed-Video"的缩写，是一项旨在构建视频生成基础模型的研究成果。该网页展示了拥有约 70 亿 (7B) 个参数的扩散变换器 (Diffusion Transformer)，使用相当于 1,000 个 H100 GPU 的计算能力进行训练。Seaweed 从海量多模态数据（例如视频、图像和文本）中学习世界表征。它允许根据文本描述创建各种分辨率、宽高比和时长的视频。在本文中，我们将展示其生成的视频，并重点介绍其作为基础模型的标志性功能，该模型能够支持广泛的下游应用。

效果展示

Seaweed非常擅长生成逼真的人类角色，展现出多种多样的动作、手势和情感。

Seaweed 擅长生成各种景观。凭借其精妙的细节和动态的构图，它可以创造出视觉震撼的环境，增强叙事效果。

从图像生成视频

Seaweed 提供增强的控制功能，使用户能够精准地创作他们所设想的内容。通过提供图像作为第一帧，用户可以控制模型以一致的动作和风格生成视频的其余部分。这赋予用户对视觉美学的完全控制权，使其成为对准确性和创意方向至关重要的应用的理想选择。

Seaweed 还可以对第一帧和最后一帧进行调节，从而生成有趣的过渡视频，以实现更好的创意控制。

通过引用生成视频

Seaweed还可以进行微调，根据参考图像生成视频，为用户提供灵活的输入选项。无论是人物参考图像、物体参考图像，还是多幅参考图像的组合，该模型都可以将它们合成为动态视频序列。

以人为本的视频生成

Seaweed 经过 Omnihuman 的调整，可根据音频输入生成内容，从而创建与音频声音完美匹配的逼真人物角色。该模型确保唇部动作和肢体动作与音频的音调和节奏同步，从而实现无缝逼真的互动。

论文介绍

论文介绍了一种用于训练视频生成基础模型的经济高效的策略。提出了一个名为 Seaweed-7B 的中型研究模型，该模型拥有约 70 亿个参数 (7B)，使用 665,000 个 H100 GPU 小时从零开始训练。尽管训练所需的计算资源有限，但 Seaweed-7B 的性能与规模大得多的当代视频生成模型相比依然极具竞争力。在资源受限的环境下，设计决策尤为重要。本技术报告重点介绍了提升中型扩散模型性能的关键设计决策。从实证研究来看，得出两点观察结果：

Seaweed-7B 的性能可与使用更大规模 GPU 资源训练的大型模型相媲美，甚至超越它们；
Seaweed-7B 表现出强大的泛化能力，可以通过轻量级微调或持续训练，有效地应用于各种下游应用。

作者观察到使用更大的 72B LLM 可以减少字幕任务中的幻觉。然而，使用 72B 模型为数百万个视频生成字幕会显著增加计算成本。因此利用 72B LLM 作为教师模型，将知识提炼到计算效率更高的 7B 学生模型中，从而在不增加额外推理开销的情况下提高字幕准确率。此外研究结果表明，先生成"详细"字幕，然后再推导出"简短"字幕（类似于思维链过程），可以进一步提高简短字幕的准确率。在测试集上，这种推理策略将准确率从 84.81% 提升到了 90.84%。

视频字幕模型生成简短而详细的字幕。简短字幕提供以动作为中心的视频摘要，而详细字幕提供丰富的场景描述，包括属性、物体和环境

数据构成了视频生成模型的基础。为了高效地大规模处理和检索视频数据，我们开发了一套高吞吐量且灵活的视频整理流程。该流程旨在用于管理视频编码和解码、执行时间分割和空间裁剪，并应用所有视频质量过滤操作。利用该系统从海量视频数据中识别出高美感、高清晰度和动态丰富的视频片段。凭借这套基础架构，每天能够处理超过 50 万小时的视频数据。鉴于这些数据的质量足以满足训练需求，因此，我们的重点是如何利用各种数据处理器有效地挖掘高质量视频片段。变分自编码器 (VAE) 由一个编码器（将原始像素数据压缩到紧凑的潜在空间）和一个解码器（根据这些潜在特征重建原始输入像素）组成。理想的变分自编码器 (VAE) 应该在保持高重建质量的同时实现高压缩比。VAE 是一个重要的组成部分，因为它设定了生成内容的真实度和保真度的上限，其潜在分布影响后续生成模型的收敛速度。

结果比较

结论

论文提出了一个具有 70 亿个参数、经济高效的视频生成基础模型。研究结果表明，尽管使用了适度的计算资源，Seaweed-7B 的性能仍与使用更多 GPU 资源训练的大型模型相当甚至更胜一筹，并且在各种视频生成任务中展现出强大的泛化能力。

局限性。

几乎所有视频基础模型方面都存在很大的改进空间。应对这些挑战需要研究界和业界的共同努力，推动数据管理、模型设计和后期训练方面的进步。
由于计算能力有限，模型在生成细粒度细节（例如小脸或精细图案）方面存在局限性。
确保可靠的视频生成仍然是一个关键的研究领域。需要付出更多努力来增强视频生成过程中的安全性、公平性和道德考量。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024