2026年1月7日星期三

全栈视觉生成器杀到!上交&快手&南洋理工最新VINO:图像视频生成+编辑一网打尽

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Junyi Chen等

解读:AI生成未来
图片

论文链接https://arxiv.org/abs/2601.02358
代码链接https://github.com/SOTAMak1r/VINO-code/
工程链接https://sotamak1r.github.io/VINO-web/

亮点直击

  • 统一视觉生成框架VINO:一个将图像/视频生成与编辑任务统一在单一框架下的模型,无需针对特定任务设计独立模块。
  • 交错全模态上下文:通过耦合视觉-语言模型与多模态扩散 Transformer(MMDiT),将多模态输入编码为交错的条件Token,实现了对文本、图像和视频信号的统一处理。
  • Token 边界机制:一种重用VLM特殊Token(start/end tokens)来包裹MMDiT中VAE隐变量的机制,有效保持了跨语义和隐变量表示的身份一致性,减少了属性泄露。
  • 渐进式训练策略:设计了多阶段训练流程,成功将视频生成基础模型扩展为具备多任务能力的统一生成器,同时保留了原本高质量生成能力。

效果一览

图片图片

图片图片

解决的问题

  1. 视觉生成任务的碎片化:现有的文生图、文生视频和视觉编辑模型通常是独立开发和部署的,缺乏统一性。
  2. 多模态信号的冲突与解耦:当同时提供文本、图像、视频等多种引导信号时,现有模型难以可靠地解耦并确立信号的优先级,导致语义冲突或条件控制效果不一致。
  3. 长短文本指令的适应性差异:生成任务通常依赖长描述,而编辑任务使用短指令,模型难以同时适应这两种格式。

提出的方案 / 应用的技术

  1. VLM + MMDiT 架构:使用冻结的 Qwen3-VL 作为前端编码器处理所有语言和视觉条件,配合 HunyuanVideo(基于 MMDiT)作为扩散骨干网络。
  2. 可学习的查询 Token(Learnable Query Tokens):在 VLM 输入端引入可学习 Token,作为高层指令与底层扩散特征之间的灵活接口,与生成器联合优化,提升了多模态条件的对齐和优化稳定性。
  3. 共享边界标记的隐变量注入:为了弥补 VLM 特征丢失细节的问题,将参考图像/视频的 VAE 隐变量注入 MMDiT。关键技术在于复用 VLM 的 <|vision_start|> 和 <|vision_end|> Token 来标记 VAE 隐变量的边界,确保语义特征与隐变量特征的对应关系。
  4. 3D RoPE 策略:在时间轴上应用统一的 3D 旋转位置编码,以交错方式处理不同的视觉模态。

达到的效果

  1. 多任务全能表现:在 Geneval 和 VBench 等基准测试中,VINO 展现了强大的图像/视频生成及编辑能力。
  2. 指令遵循与一致性:相比基线模型,VINO 在遵循复杂指令、保持参考图像/视频的身份特征(ID preservation)方面表现更优,尤其是在多身份编辑场景下。
  3. 高效的能力扩展:通过渐进式训练,仅需少量编辑数据的微调(Stage 3),模型即展现出优于大多数开源基线的编辑能力。

架构方法

本章节介绍了用于多模态图像和视频生成/编辑的统一框架。本工作的目标是设计一个系统,该系统能够接受异构的控制信号——文本指令、参考图像或视频以及可学习 Token,并利用它们来引导基于扩散的视觉生成器。遵循高层模型流程(如图 3 所示),本节围绕三个核心组件展开:首先在 2.1 节描述如何通过视觉-语言模型(VLM)处理多模态条件以获得连贯的特征表示;接着在 2.2 节解释如何将这些编码后的条件注入到多模态扩散 Transformer(MMDiT)中,且不引起歧义或错误的跨模态定位;最后在 2.3 节详细介绍使整个架构成为支持广泛编辑和生成任务的统一多任务视觉生成器的训练策略。

图3 |VINO pipeline概述。我们的统一框架将生成条件设在交错的全模态上下文上,该上下文共同编码系统提示、提示/指令、参考图片/视频和可学习的标记。冻结的VLM会处理文本指令和视觉引用,生成多模态嵌入,这些嵌入通过可学习的符号(紫色)补充,并用特殊符号(视觉开始符号和视觉结束符号)分隔。这些交错的多模表示被输入到MMDiT模块中,模块还接收来自参考图像或视频的VAE潜数。MMDiT模型基于完整的多模态上下文进行降噪,使VINO能够在单一统一架构内执行图像和视频生成以及基于指令的编辑。
图3 |VINO pipeline概述。我们的统一框架将生成条件设在交错的全模态上下文上,该上下文共同编码系统提示、提示/指令、参考图片/视频和可学习的标记。冻结的VLM会处理文本指令和视觉引用,生成多模态嵌入,这些嵌入通过可学习的符号(紫色)补充,并用特殊符号(视觉开始符号和视觉结束符号)分隔。这些交错的多模表示被输入到MMDiT模块中,模块还接收来自参考图像或视频的VAE潜数。MMDiT模型基于完整的多模态上下文进行降噪,使VINO能够在单一统一架构内执行图像和视频生成以及基于指令的编辑。

多模态条件

为了处理多种形式的输入,本工作采用冻结的 VLM 模型作为所有语言和视觉条件的前端编码器。如图 4 所示,系统提示词(System Prompt)会根据输入模态的存在与数量而变化。当没有提供视觉模态时,用户仅提供文本输入,这作为文生图或文生视频生成的唯一条件。当存在视觉输入时,它们首先按类型(先图像,后视频)排序并放置在提示词的开头,每个输入被分配一个唯一的标识符,如 Image 1 或 Video 1。用户随后可以在文本输入中引用这些标识符来指定不同的视觉条件,从而实现复杂的多模态控制。此外,本工作在提示词末尾附加了一组可学习 Token(Learnable Tokens),将跨模态特征提取到一个共享空间中。这些 Token 同样使用因果掩码(Causal Masking)处理,而非给予全双向注意力。最后,使用 VLM 倒数第二层的隐藏状态作为编码后的条件,应用两层多层感知机(MLP)进行特征投影,然后输入到后续的 MMDiT 中。

图片

交错全模态上下文

尽管 VLM 提供了鲁棒的高层多模态语义,但它显著压缩了视觉信息,导致缺乏细粒度的空间细节和纹理保真度。因此,它无法充分处理需要精确结构控制的任务,如局部编辑。为了补偿这一信息瓶颈,本工作通过所有视觉模态的 VAE 编码隐变量(Latents)来补充 VLM 嵌入。如图 5 所示,这些 VAE 隐变量按照 VLM 中使用的相同顺序排列,并将加噪的图像/视频隐变量放置在末尾。然而,简单地拼接图像和视频隐变量会引入歧义。为了唯一地区分不同的视觉条件,并将每个 VAE 隐变量与其对应的 VLM 特征对齐,本工作复用了 VLM 的 <|vision_start|> 和 <|vision_end|> 嵌入向量。在通过一个 MLP 将这些嵌入投影以匹配 MMDiT 输入维度后,它们被用于标记每个视觉隐变量块的边界。这种显式的边界标记作为一种强位置线索,允许注意力机制正确有效地划分并解释序列中不同的视觉条件输入。

图片

训练统一多任务视觉生成器

为了构建支持多模态条件的统一视觉生成器,本工作从一个文生视频扩散模型开始,因为它已经提供了强大的时间动态先验。为了替换原始的文本编码器,首先将 VLM 的输出空间与模型原生的文本编码器对齐。在这一初始阶段,仅训练一个两层 MLP 连接器以在两个嵌入空间之间进行映射。现代文生视频模型通常依赖长且结构良好的文本提示词,而编辑任务通常涉及简短的指令,这产生了分布差距。为了弥补这一差距,本工作采用了渐进式训练策略,逐步转变输入条件的分布。具体而言,将短提示词视为长提示词与简练编辑指令之间的中间形式。在第二阶段,使用长短提示词混合训练模型,以确保对两种形式的鲁棒性,并在该阶段开始更新 MMDiT 参数。一旦模型适应了短提示词输入,便进入最后阶段,进行全多任务混合训练。各阶段的数据混合比例如图 6 所示。这使得模型能够平滑地从结构化文本视频条件过渡到基于指令的多模态生成和编辑。

实验

实验设置

  • 基础模型:采用 Qwen3VL-4B-Instruction 作为多模态编码器,HunyuanVideo 作为视觉生成器初始化。
  • 数据策略:结合了大规模开源图像/视频集合与高质量的蒸馏数据。采用动态分辨率分桶策略(Dynamic resolution bucketing),在保持原始长宽比的同时平衡计算负载。
  • 训练细节:分为三个阶段,使用 DeepSpeed ZeRO-2 进行训练。根据任务动态调整视频帧数和参考图像数量。
图片
图片
图片

视觉生成表现

  • 基础能力保持:尽管在 Stage 3 中标准的文生图/文生视频数据占比很小,但在 Geneval 和 VBench 基准测试中,VINO 的性能指标与 HunyuanVideo 骨干网络高度相当。证明了训练策略有效避免了灾难性遗忘。
  • 参考生成能力:在 OpenS2V 基准测试(针对特定主体的视频生成)中,VINO 表现出明显的优势,能够有效地根据参考图像生成定制化视频。
图片
图片

视觉编辑表现

  • 图像编辑:在 ImgEdit 和 GEdit 基准测试中,VINO 在仅经过 Stage 3 的少量训练后(1k 步),其编辑能力就迅速超越了大多数开源基线。这得益于渐进式训练带来的强大指令遵循能力。
  • 视频编辑:与 VACE-Ditto 等方法相比,VINO 在相同输入下展现了更强的指令遵循性和视觉质量,能够准确执行如"移除物体"、"风格转换"等复杂操作。
图片
图片
图片
图片

消融实验

  • 可学习 Token 的作用:引入可学习 Token 显著提升了训练的稳定性(优化曲线更平滑),并增强了多模态条件的保真度。去除这些 Token 会导致梯度噪声变大,且在物体移除/替换等任务中表现下降。
  • Image CFG 的影响:增加图像分类器自由引导(Image CFG)的权重可以增强对参考图像视觉身份的保持,但过大的权重会抑制动作的多样性。
  • 特殊 Token(边界标记)的作用:如果在 VAE 隐变量序列中不使用特殊的边界 Token,模型会错误地纠缠视频的时间结构与静态图像隐变量,导致生成的首帧出现明显伪影。
图片

结论

VINO,这是一个能够在单一框架下执行图像和视频生成及编辑的统一视觉生成器。通过精心设计的模型组件以及接受交错全模态上下文的条件管线,VINO 能够无缝集成异构输入并处理广泛的视觉任务。广泛的对比实验证明了本方法的有效性和强大性能。此外,本工作的渐进式训练策略使得模型在获得鲁棒的多任务能力的同时,保留了基础视频骨干网络的生成优势,最终产出了一个连贯且统一的视觉生成器。VINO 为多对多(many-to-many)视觉生成提供了一个灵活、可扩展的基础,并为更通用的多模态生成系统铺平了道路。

局限性与未来工作

  • 文本渲染能力:基础模型缺乏文本渲染能力,使得 VINO 在涉及文本编辑的基准测试中处于劣势。
  • 编辑数据质量:现有的指令编辑数据集质量通常低于大规模生成数据集,包含的运动有限且结构简单,这可能导致模型在引入编辑任务后,视觉保真度或动作丰富度略有下降。
  • 计算成本:在 MMDiT 中,全注意力机制的复杂度呈二次方增长。因此,当提供参考视频和大量参考图像时,推理延迟会显著增加。
  • 模态限制:目前支持的模态受限于 VLM。探索更强大、更全面的 VLM 是未来的研究方向。

参考文献

[1] VInO: A Unified Visual Generator with Interleaved OmniModal Context

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

不会吧!这款完全免费的小说写作ai工具,你应该寻找很久了,赶紧收藏起来点赞吧

记得早之前就有人咨询过高粱seo,有没有免费写小说的ai工具软件,当时高粱seo只知道有收费的,但是没见过免费的,毕竟基本都是通过ai大模型的api写的,这就必须付费才行的了。好在今天无意中在寻找资源过程中,一款优秀的ai小说软件映入眼中 这几天都是连续分享ai网站,高粱se...