字节提出的 Waver 1.0 是用于统一图像和视频生成的下一代通用基础模型系列,它基于整流变压器构建,专为实
字节提出的 Waver 1.0 是用于统一图像和视频生成的下一代通用基础模型系列,它基于整流变压器构建,专为实现工业级性能而设计。
一体化模型:在单一集成框架内同时支持文本到视频 (T2V)、图像到视频 (I2V) 和文本到图像 (T2I) 生成。 1080p 分辨率和灵活长度:支持高达 1080p 的高分辨率图像和视频生成,具有灵活的分辨率、宽高比和视频长度(2-10 秒)。 SOTA 性能:在人工分析的T2V 排行榜和I2V 排行榜上均排名前三名,始终优于现有的开源模型,并达到或超过最先进的商业解决方案。 卓越的运动建模:擅长捕捉复杂的运动,在视频合成中实现卓越的运动幅度和时间一致性。
相关链接
论文:https://arxiv.org/pdf/2508.15761 主页:http://www.waver.video/ 代码:https://github.com/FoundationVision/Waver
Waver1.0 简介
Waver1.0是一款一体化视频生成模型,擅长文本转视频 (T2V)、图像转视频 (I2V) 和文本转图像 (T2I) 生成。它提供灵活的分辨率和宽高比,支持任意长度的视频,并且易于扩展,可控制视频生成。
模型架构
使用Wan-VAE获取压缩视频潜在特征,以提高其效率。采用flan-t5-xxl和Qwen2.5-32B-Instruct提取文本特征。DiT 模型基于整流 Transformer 构建。视频和文本模态采用双流 + 单流方法融合,其中两种类型的块数分别为 M 和 N。我们通过修改输入通道,在单个模型中实现了 T2V 和 I2V 的联合训练,视频标记通道为 16,图像(第一帧)标记通道为 16,任务掩码通道为 4。在 T2V 和 I2V 的联合训练中,我们以 20% 的概率加入图像潜在特征。
用于 1080P 生成的级联精炼器
Waver-Refiner采用 DiT 架构,并使用流匹配方法进行训练。我们首先将低分辨率视频(480p 或 720p)上采样至 1080p,然后为其添加噪声。Refiner 将带噪声的低分辨率视频作为输入,并输出高质量的 1080p 视频。Refiner 采用窗口注意力机制,将推理步骤数量减少了一半,显著提升了推理速度。具体而言,与直接生成 1080p 相比,720p→1080p 的推理时间缩短了约 40%,480p→1080p 的推理时间缩短了约 60%。
训练策略
作者发现低分辨率视频训练对于学习运动至关重要。因此投入了大量计算资源在 192p 视频上进行训练,然后逐渐将分辨率提高到 480p 和 720p。遵循SD3中的光流匹配训练设置,在 480p 和 720p 视频上训练时逐渐增加 sigma shift 的值。对于 720p 训练,我们在训练中将 sigma shift 设置为 3.0,在推断中设置为 7.0。对于 T2I,我们使用 lognorm(0.5, 1) 概率密度函数进行时间步长的采样。对于 T2V 和 I2V,我们使用 mode(1.29)。根据经验,我们发现使用 mode 采样策略在视频生成任务中可以带来更佳的运动效果。
提示标记
采用提示标记方法来区分不同类型的训练数据。根据视频风格和视频质量为训练数据分配不同的标签。在训练期间会在字幕前添加一个描述视频风格的提示。对于质量会在训练字幕末尾附加一个描述视频质量的提示。在推理过程中会将描述不良质量(例如低清晰度或慢动作)的提示合并到负面提示中。对于特定的风格要求(例如动漫风格),会使用提示重写技术将相应的描述性提示添加到整体提示之前。
以下视频展示了同一提示"夜晚,一个男人和一个女人手牵手走在熙熙攘攘的城市街道上"的 6 种不同风格:真实的、吉卜力风格的 2D 动画、3D 动画、体素风格的 3D 动画、迪士尼动画电影风格、卡通图画书风格的 2D 动画。
推理优化
将APG扩展到视频生成,以增强真实感并减少伪影。APG 将 CFG 中的更新项分解为并行和正交分量,并降低并行分量的权重,从而实现高质量生成且不会过饱和。从 [C, H, W] 维度对潜在向量进行归一化比从 [C, T, H, W] 维度对潜在向量进行归一化可以减少伪影。对于超参数发现归一化阈值 27 和指导尺度 8 在真实感和伪影之间取得了良好的平衡。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论