👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Kandinsky Lab
论文链接 (arXiv):https://arxiv.org/abs/2511.14993 开源代码 (GitHub):https://github.com/kandinskylab/kandinsky-5 Hugging Face:https://huggingface.co/kandinskylab 项目官网:https://kandinskylab.ai/
✨ 亮点直击
Kandinsky 5.0,是一套专为高分辨率图像和视频合成设计的 SOTA基础模型家族。 全套模型开源阵容:
(1) Kandinsky 5.0 Image Lite (6B) :用于图像生成和编辑。
(2) Kandinsky 5.0 Video Lite (2B) :轻量级文本/图像生成视频模型,速度快。
(3) Kandinsky 5.0 Video Pro (19B) :超大规模视频生成模型,追求极致质量。技术创新:引入了 NABLA 注意力机制,在保持质量的同时显著降低了计算复杂度。 训练流程升级:采用多阶段训练,特别是引入了基于强化学习(RL)的后训练和针对性的监督微调。
❓ 解决的问题
当前视频生成领域面临的主要挑战包括:
计算复杂度高:处理随时间变化的三维视频数据会导致计算量呈指数级增长,难以扩展到高分辨率和长时长(如 >5秒)。 数据质量与筛选:如何从海量数据中清洗出高质量、无水印、美学评分高的数据用于训练。 生成质量与可控性:在生成高动态视频时,往往难以兼顾动作的一致性、物理真实感和对文本提示词的精准遵循。 推理速度:高质量模型通常推理缓慢,难以满足实际应用需求。
🛠️ 提出的方案与应用的技术
本工作提出了一套完整的解决方案,涵盖架构、数据和训练策略:
核心架构 (CrossDiT & Flow Matching) :
所有模型均基于流匹配(Flow Matching)范式和潜在扩散管道(Latent Diffusion Pipeline)。 核心骨干网络为 **CrossDiT (Cross-Attention Diffusion Transformer)**,融合了 Qwen2.5-VL 的文本嵌入和 FLUX.1-dev/HunyuanVideo VAE 的视觉潜在特征。 注意力机制优化 (NABLA) :
为了解决长视频生成的计算瓶颈,提出了 NABLA。这是一种稀疏注意力机制,通过块级降维、基于 CDF 阈值的自适应稀疏化以及滑动瓦片(Sliding-Tile)模式,实现了 2.7倍 的训练/推理加速,并保持了 90% 的稀疏率。 数据pipeline :
构建了极其详尽的数据处理流程,包括水印检测、美学评分(TOPIQ, Q-Align)、文本过滤和合成描述生成(使用 InternVL2, Qwen2.5-VL 等多模态大模型)。 构建了专门的 Instruct Image Editing 数据集和 SFT 数据集。 训练策略:
多阶段训练 :预训练 SFT(使用高质量筛选数据) 蒸馏 RL 后训练。 RLHF (基于人类反馈的强化学习) :在图像生成中,训练了一个奖励模型(Reward Model),并使用 DRaFT-K 算法进行微调,以提升视觉质量和提示词对齐度。 蒸馏 (Distillation) :结合了 CFG 蒸馏、轨迹分段一致性蒸馏 (TSCD) 和对抗性后训练,将推理步数(NFE)从 100 降低至 16(Flash 版本)。
📈 达到的效果
生成质量: 在人工评估(Side-by-Side)中,Kandinsky 5.0 Video Pro 在视觉质量和动作动态性上优于或持平于 Veo 3 和 Wan 2.2 A14B。 Kandinsky 5.0 Video Lite 在与 Sora 的对比评估中,在特定维度上也展现了竞争力。 性能效率: 通过 NABLA 和 Flash 蒸馏技术,Video Lite Flash 模型生成 5秒视频(512x768)仅需 35秒 (NFE=16),显存占用低至 21GB。 Video Pro 模型支持生成 10秒、1408px 分辨率的高清视频。 开源贡献:提供了完整的权重和代码,支持 Hugging Face diffusers库,极大地降低了社区的研究门槛。
引言
在过去几年中,扩散模型及其后续的流匹配方法在图像生成领域引发了质的飞跃,实现了前所未有的合成质量和多样性。这一基础促使了商业和开源系统的快速发展,为用户提供了从文本到图像 (T2I) 合成到复杂编辑的广泛生成能力。迄今为止,图像生成模型不仅达到了高质量水平,而且还在积极改进,不断提高真实感和可控性的标准,如 Stable Diffusion 3、Flux、Seedream 3 & 4和 Hunyuan Image 3等模型所示。
这一进展的自然延伸是对视频生成的兴趣日益增长,导致了许多调整和扩展图像成功架构的方法,如[13, 14, 15, 16]等的出现。然而,由于处理随时间变化的三维视频数据时计算复杂度呈指数增长,这些方法的直接转化面临着根本性的可扩展性问题。通过积极采用像 Diffusion Transformer (DiT)这样的架构,部分解决了这些限制,DiT 提供了必要的可扩展性和效率,同时配合一系列针对视频数据处理的注意力机制修改。
如今,许多视频生成模型展示了高水平的质量,例如 Sora和 Veo。这一进展的很大一部分是由开源计划推动的。诸如 HunyuanVideo、Mochi、CogVideoX、Wan和 VACE等项目,通过普及基础架构和预训练权重,加速了研究和开发,并展示了接近专业级视频制作的结果。所有这一切为视频模型的应用开辟了广阔的机会,并为创建多媒体生成系统、"世界模型" 和基础视觉模型奠定了基础,这些模型的重要性类似于自然语言处理 (NLP) 中的大语言模型 (LLMs)。
尽管发展迅速,但视频生成仍面临严峻挑战。除了处理海量数据外,创建此类系统还需要对训练过程和后续推理进行复杂的多阶段优化。因此,高效地创建高质量、连贯且可控的视频仍然是生成式 AI 中最具挑战性的任务之一。
在本工作中,旨在解决视频生成领域的一些关键挑战。提出了 Kandinsky 5.0 —— 一个用于高分辨率图像和视频合成的基础生成模型家族,旨在实现最先进的质量和运行效率。Kandinsky 5.0 套件包含三个模型阵容:
Kandinsky 5.0 Video Pro :高能的 19B 参数模型,用于文本到视频和图像到视频生成,可创建长达 10 秒的高分辨率视频。 Kandinsky 5.0 Video Lite :轻量级的 2B 参数模型,用于文本到视频和图像到视频生成,可制作长达 10 秒的剪辑。 Kandinsky 5.0 Image Lite :6B 参数模型,用于高分辨率的文本到图像生成和图像编辑。
本技术报告的主要贡献如下:
提供了数据收集和处理管线的全面描述,包括为指导性图像编辑微调以及视频和图像模态的自监督微调 (SFT) 准备数据。 详细介绍了所有六个模型的多阶段训练管线,包括用于学习视觉世界通用模式的预训练阶段和用于增强视觉质量的 SFT 阶段。本文还介绍了基于 RLHF 的对抗性后训练方法,该方法基于比较生成图像与 SFT 数据集中的图像。此方法实现了更优越的真实感、视觉质量和提示词对齐。 展示了核心 CrossDiT 模型的架构,重点介绍了针对时长超过 5 秒的高分辨率视频(超过 512 px)的关键注意力机制优化——NABLA 方法 。这克服了标准时空注意力的二次复杂度,在保持生成视频质量的同时,以 90% 的稀疏率实现了 2.7倍 的训练和推理时间缩减,这一结果已通过 FVD、VBench、CLIP-score和人工侧对侧(Side-by-Side)测试得到证实。 描述了在整个管线中实施的多种优化措施,以加速推理、训练并减少内存消耗。这些技术包括变分自编码器 (VAE) 优化、文本编码器量化,以及使用全分片或混合分片数据并行 (F/HSDP)、激活检查点 (Activation Checkpointing)等进行的 CrossDiT 训练优化。 对于视频模型蒸馏,本文采用了一种组合方法,整合了无分类器指导蒸馏 (Classifier-Free Guidance Distillation)、轨迹分段一致性蒸馏 (TSCD)和随后的对抗性后训练以增强视觉质量。这将函数评估次数 (NFE) 从 100 减少到 16,同时保持了视觉质量,这一点已通过人工侧对侧评估结果得到证明。 本文将最终模型与几种最先进的方法进行了评估,并通过在来自 MovieGen [45] 的提示词集上进行的人工评估,展示了卓越的视频生成质量。 最后,本文开源了所有模型在各个训练阶段的代码和权重,并通过 diffusers库提供访问。
报告概览
本报告的结构旨在提供对模型设计、训练和评估的全面理解:
第 3 节:背景:Kandinsky 模型的演变。 追溯 Kandinsky 模型家族的历史,从早期的基于自回归的模型到当前最新版本的 Kandinsky 5.0。 第 4 节:数据处理pipeline。 描述用于整理和标注数据集的大规模多阶段管线,这些数据集用于文本到图像和文本到视频的预训练、自监督微调、图像指令微调以及特定于俄罗斯多元文化数据的收集。本文强调了该方法中的质量控制和可扩展性。 第 5 节:Kandinsky 5.0 架构。 介绍了 Kandinsky 5.0 模型的架构,该架构对家族中的所有模型通用。核心组件包括交叉注意力扩散 Transformer (CrossDiT)、相应的 CrossDiT 块方案以及邻域自适应块级注意力 (NABLA) 机制,这对于优化训练和推理至关重要。 第 6 节:训练阶段。 概述了多阶段训练过程,从大规模数据集上的预训练到自监督微调、蒸馏以及专为图像和视频模型定制的基于 RL 的后训练。 第 7 节:优化。 涵盖了诸如 VAE 编码器加速、CrossDiT 训练优化和 GPU 内存高效利用等技术。 第 8 节:结果。 展示了不同训练阶段视觉质量的增长以及人工侧对侧 (SBS) 评估,证明了与现有模型相比在动作一致性、视觉质量和提示词对齐方面的卓越性能。 第 9 节:用例。 通过视觉示例和技术提示词,重点介绍了在文本到图像、图像编辑、文本到视频和图像到视频生成方面的实际应用。 第 10 节:相关工作。 将 Kandinsky 5.0 置于更广泛的生成模型背景下,涵盖文本到图像和文本到视频生成、蒸馏、后训练技术和生成模型评估方法方面的进展。 第 11 节:局限性与未来工作。 讨论了尚存的挑战,指引未来的研究方向。 第 12 节:边界影响与伦理考量。 详述了实施的负责任 AI 框架,包括数据管理、运行时保障和伦理使用准则,以确保安全部署。 第 13-14 节:结论、贡献者与致谢。 总结贡献并感谢参与的团队和合作者。
结论
本报告介绍了 Kandinsky 5.0,这是一个用于高分辨率图像和视频生成的通用且可扩展的基础模型家族。该框架包括三个核心模型阵容:Kandinsky 5.0 Image Lite(6B 参数)、Kandinsky 5.0 Video Lite(2B 参数)和 Kandinsky 5.0 Video Pro(19B 参数),每个模型都针对特定的生成任务和效率要求进行了优化。
Kandinsky 5.0 树立了开源生成式 AI 的新里程碑,提供了:
具有强大美学和构图控制力的高保真文本到图像及图像编辑能力。 强大的文本到视频和图像到视频合成能力,支持高达 1408p 分辨率、时长达 10 秒的视频片段。 高效的蒸馏变体 (Video Lite/Pro Flash),在保持质量的同时大幅缩短了推理时间。
尽管取得了这些进展,本文也承认在文本-视觉对齐、长期时间建模以及跨所有视觉领域的泛化能力等方面仍存在局限性。这些挑战将指导本文正在进行的研究,朝着更统一、高效和符合伦理的生成模型迈进。
相信 Kandinsky 5.0 代表了向高质量生成媒体大众化迈出的重要一步,并为多模态 AI 的未来发展奠定了坚实基础。
📚 参考文献
[1] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论