2026年3月14日星期六

4B参数多模态模型InternVL-U开源:理解生成编辑全能,性能超越14B

InternVL-U是国产开源多模态模型,仅4B参数实现理解、生成、编辑统一,性能超越14B模型。采用思维链数据合成,支持复杂指令,代码和模型已开源,适合AI研究和应用开发者。

Tags:

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Changyao Tian等

解读:AI生成未来
图片
论文链接https://arxiv.org/abs/2603.09877
开源代码 (GitHub) :https://github.com/OpenGVLab/InternVL-U
模型权重 (HuggingFace) :https://huggingface.co/InternVL-U/InternVL-U
GenEditEvalKit: https://github.com/open-compass/GenEditEvalKit
TextEdit Benchmark: https://github.com/open-compass/TextEdit
图片
InternVL-U生成和图像编辑效果
InternVL-U生成和图像编辑效果

亮点直击

  • InternVL-U 架构:构建了一个仅有 4B 参数的轻量级、高效统一多模态模型(UMM),在一个统一的框架内实现了多模态的理解、推理、生成与编辑能力。
  • 架构设计理念创新:基于统一上下文建模(Unified Contextual Modeling)、视觉表示解耦(Decoupled Visual Representations)以及特定模态模块化(Modality-Specific Modularity)三大原则,成功解决了高层语义理解与底层像素重建之间的冲突。
  • 以推理为中心的数据合成范式(Reasoning-centric Paradigm):针对高语义密度任务(如文本渲染、科学推理、空间操作等),构建了全面的数据合成pipeline。通过引入思维链(Chain-of-Thought, CoT),将用户抽象模糊的意图转化为包含规划与约束的可执行步骤,实现了从简单指令遵循到深度意图对齐的跨越。

解决的问题

  • 性能与效率的权衡(Trade-offs):现有的统一多模态模型很难在"保持强大的语义理解能力"与"获得高质量的图像生成能力"之间取得平衡。
  • 原生与集成 UMM 的架构缺陷
    • 完全原生(Fully-native)UMM:从头联合训练理解和生成任务面临巨大的优化和工程挑战(不同模态数据分布冲突),且往往需要放弃社区已有 SOTA 多模态理解模型的先验知识,训练成本极高。
    • 完全集成(Fully-ensemble)UMM:通常需要外接极其庞大的视觉生成头(导致训练和部署成本剧增),或者引入复杂且碎片化的条件控制管道,难以与单一 MLLM 的隐藏状态空间完美对齐。
  • 训练数据分布的领域鸿沟:生成模型通常在纹理丰富但语义密度低的自然图像上训练,而理解模型则高度依赖包含密集语义、文本和结构化知识的合成图像(如 GUI、图表)。这种数据目标的错位阻碍了面向 AGI 的统一模型的演进。
  • 用户意图的抽象性:在真实场景中,用户给出的生成或编辑指令往往简短且模糊,缺乏具体约束,导致模型难以准确捕捉意图并生成符合逻辑的精细图像(特别是涉及文本、科学知识和复杂逻辑时)。

提出的方案

  • 基于先进 MLLM 的模块化架构:InternVL-U 建立在开源且性能领先的 InternVL 3.5 基础之上,保留了强大的理解能力,并定制集成了一个基于 MMDiT 的轻量视觉生成头(Visual Generation Head)。
  • 视觉表示解耦:在理解任务中,输入使用预训练 ViT 提取的高层语义特征;在生成任务中,输出目标则使用专门用于图像重建的 VAE 压缩的潜空间(Latent space)特征。
  • 高质量、高语义密度数据pipeline:设计了针对中英双语排版渲染、科学知识结构化(基于 GeoGebra 和 SVG)、空间几何变换以及网络热梗(Meme)的专门合成pipeline。
  • 引入 CoT 推理引导生成与编辑:在训练和推理阶段利用大模型生成详细的"思维链"步骤,将抽象指令扩展为对物体、背景、样式、约束条件的详细描述,使得生成模型能获得更清晰、更稳定的监督信号。

应用的技术

  • 混合生成目标(Hybrid Generative Objectives):对离散的文本采用标准的自回归(AR)下个 Token 预测;对连续的视觉图像潜变量采用基于流匹配(Flow Matching)的连续多变量概率空间建模。
  • 带门控注意力的双流 MMDiT(Dual-Stream MMDiT with Gated Attention):视觉生成头采用双流架构处理多模态上下文和生成目标,引入元素级门控机制(Gating Mechanism)来增强非线性,缓解高分辨率长上下文场景下的"注意力下沉(Attention-sink)"问题。
  • 具有分辨率插值的统一 MSRoPE(Unified MSRoPE with Resolution Interpolation):对上下文中的视觉 Token 和生成目标应用统一的 3D 旋转位置编码。采用分辨率插值策略(通过增加相邻 Token 的步幅而非缩小索引范围)来处理从低分辨率向高分辨率微调时的扩展问题。
  • 三阶段渐进式训练(Three-stage Progressive Training)
    1. 生成头预训练:冻结 MLLM,仅训练生成头及投影层,将视觉生成对齐到 MLLM 潜空间。
    2. 任意分辨率持续预训练:引入多种长宽比和更高分辨率,保持 MLLM 冻结,显式注入条件图像的 VAE 潜特征以提升编辑的像素级一致性。
    3. 统一监督微调:解冻全模型进行端到端优化,加入 CoT 推理数据,让模型学会在视觉执行前通过文本推理进行规划。

达到的效果

  • 性能越级:尽管总参数量仅为 4B(2B MLLM + 1.7B 生成头),InternVL-U 在各类生成和编辑任务上持续超越了规模是其 3 倍以上的统一基线模型(如 14B 的 BAGEL)。
  • 卓越的文本渲染与复杂生成能力:在通用的、以文本为中心的(如海报、UI 编辑)、以及知识密集型(如数学、物理原理图)基准测试中表现优异,尤其是在生成高可读性文本和遵循复杂指令方面,逼近了更大规模的专用生成模型。
  • 保持顶尖的理解与推理水平:在统一了生成和编辑能力后,InternVL-U 在多模态理解基准测试(如 MME-P、OCRBench、MMMU)上依然保持了与纯理解模型相当的强大能力,没有出现"灾难性遗忘"或能力妥协。

InternVL-U方法

模型架构

总体设计原则

如图 3 所示,与近期强制对所有模态采用同质化处理管道的方法(例如 Mixture-of-Transformer (MoT))不同,本工作架构的驱动理念是:不同的模态需要定制化的处理方式,以实现效率和性能的最大化。本文从三个关键维度阐述了设计原则:建模范式、结构效率和数据表示。

图片

具有模态自适应生成的统一上下文建模。 第一个原则旨在解决多模态理解(上下文)与生成(预测)之间的二分法。本文认为,尽管上下文环境受益于统一的表示以促进深度语义融合,但生成过程应当尊重每种模态固有的统计特性。

  • 统一的上下文,自适应的目标: 在上下文阶段,本文将视觉和语言 Token 投影到一个共享的潜空间中,采用带有因果掩码的统一自回归(AR)范式。这确保了模型在推理过程中能够捕获模态间复杂的高层语义依赖关系。
  • 混合生成目标: 然而,对于预测目标,本文偏离了"一切皆 Token 化"的方法。文本本质上是离散且具有序列性的,最适合通过交叉熵损失在有限词表上进行分类分布建模。相反,视觉信号是连续且具有空间相关性的。虽然离散的视觉 Token 化是一种可行的替代方案(正如基于 VQ-VAE 的自回归模型那样),但它可能会引入量化瓶颈,并使得细粒度的空间建模变得不够直接。因此,本文采用了混合的 "自回归 + 扩散" 建模范式。本文在连续的多变量概率空间中使用流匹配(Flow Matching,扩散模型的一种广义形式)来建模图像生成,同时保留了文本的自回归目标。这种设计允许模型保留自回归语言模型在文本上的优势,同时利用基于扩散的方法在图像上高保真生成的潜力。

通过特定模态模块化设计实现结构效率。 第二个原则旨在解决完全模态不可知架构在计算上的低效问题,这类架构将所有模态视为统一的 Token 序列。本文认为不同模态具有不同的"语义密度":文本语义密集,而原始视觉 Patch 则是稀疏且冗余的。

  • 基于编码器的 MLLM 初始化: 为了减轻使用通用 Transformer 处理原始模态时固有的参数和 FLOPs 浪费,本文引入了特定模态的编码主干(Stems)。本文使用基于编码器的架构(利用预训练的 ViT)来初始化多模态上下文建模骨干,而不是使用更庞大或原生的多模态设计。这种设计引入了必要的归纳偏置,在视觉信息进入统一潜空间之前对其进行了高效聚合。
  • 特定模态生成头: 此外,考虑到文本和图像的解码需求不同,本文扩展了预训练的 MLLM,为其增加了一个基于多模态扩散 Transformer(MMDiT)架构的专用图像生成头。MMDiT 作为一个专用的生成模块,以统一的隐藏状态作为条件信号,在连续的视觉潜空间中合成图像,而不是让上下文建模骨干去承担像素级合成的重担。这种层次化设计确保了骨干网络可以专注于语义推理,而专门的主干和头部模块则负责特定模态的转换,从而构建出一个更加统一且计算高效的 UMM。

用于理解与生成的解耦视觉表示。 第三个原则挑战了这样一个假设:用于理解图像的视觉表示必须与用于生成图像的视觉表示完全相同。本文提出了一种不对称的表示策略,其动机在于:图像理解主要依赖于包含语义信息的特征,而图像生成则额外需要能够保留可重建底层视觉细节的表示(正如人类可以感知复杂的场景,但未必能将其画出来一样)。

  • 用于上下文理解的语义输入: 对于理解任务(上下文),本文仅利用通过预训练 ViT 直接从原始像素中提取的高层语义特征。这有助于保留复杂推理所需的语义保真度。
  • 用于生成目标的压缩输出: 对于生成任务(目标),本文采用了一个专门为图像重建训练的独立变分自编码器(VAE)。该 VAE 将图像压缩到一个适合用于合成的潜空间中。

通过解耦这些表示,本工作不仅避免了"优化权衡"(即单一编码器难以平衡理解所需的高层抽象和生成所需的底层像素细节),还避免了因将生成目标输入上下文骨干网络而增加的计算成本和架构复杂性。这使得本文能够在不牺牲生成质量的前提下,利用最强大的预训练编码器进行理解。

视觉生成头

基于上述原则,进一步详细介绍了定制开发的视觉生成头的实现细节,如图 4 所示。

图片

用于上下文和目标输入的双投影器。 多模态隐藏状态(上下文)和 VAE 图像潜变量(目标)的特征分布展现出显著的异质性。为了弥合这种异质性,本文采用独立的线性投影器将它们映射到视觉生成模块的条件空间中。关键的是,本文观察到,多模态上下文嵌入往往比 VAE 潜变量表现出更大的量级和更明显的异常值。为了减少这种尺度不匹配并提高训练稳定性,本文在投影之前在 VLM 分支上引入了一个额外的归纳层,显式地将上下文特征的方差归一化为 1。

带有门控注意力的双流 MMDiT 模块。 本文采用了完全的双流(Dual-Stream)架构,以应对多模态上下文和生成目标的截然不同的统计特性。虽然双流通过联合自注意力进行交互以捕获 Token 级的依赖关系,但它们在 QKVO 投影和前馈网络(FFNs)上使用了独立解耦的参数。此外,为了增强非线性并缓解在高分辨率、长上下文场景下观察到的"注意力下沉(Attention-sink)"现象,本文在注意力模块中集成了一个元素级门控机制(Gating Mechanism)。形式上,注意力层调制后的输出  为:

图片

其中  表示 Sigmoid 函数, 和  分别表示注意力层的输入和输出, 表示可学习的门控投影矩阵,该矩阵同样在双流中是解耦的。据本文所知,这是首次在 MMDiT 架构中集成门控机制,它以极小的参数开销提供了更强的表达能力。

具有分辨率插值的统一 MSRoPE。 本文采用多模态可扩展的旋转位置编码(Multimodal Scalable RoPE, MSRoPE)对位置信息进行编码,确保严格保留空间结构。

  • 统一的 3D 编码: 过去的许多工作往往将多模态上下文中的视觉 Token 视为展平的 1D 序列,与此不同,本文对生成目标和上下文中的视觉 Token 均应用统一的 3D 位置嵌入(时间、高度、宽度)。这种对齐方式显著有利于需要精确空间推理的任务,例如图像编辑。
  • 位置插值: 为了促进分辨率的缩放,本文解决了在高分辨率微调期间直接外推位置索引时观察到的"平铺伪影(tiling artifact)"问题。取而代之的是,本文采用了一种分辨率插值策略。本文基于目标的最大分辨率(例如 1024px)定义位置嵌入的范围。在初始的低分辨率预训练阶段(例如 512px),本文并没有使用较小的索引范围,而是利用了完整的范围,但增加了相邻 Token 之间的步幅。这确保了模型从一开始就学习到一致的全局空间表示,从而在扩展到更高分辨率时最小化领域鸿沟。

训练策略

训练目标

为了赋予 UMM 处理和生成多模态内容的能力,本文制定了一个联合优化目标。给定多模态上下文序列 ,模型被训练为同时预测离散的文本 Token  和连续的图像潜变量表示 

自回归文本生成。 对于文本部分,本文将文本生成视为离散词表上的序列建模问题。本文采用标准的下个 Token 预测(Next-Token Prediction, NTP)目标,即在给定上下文和前面 Token 的条件下,最小化目标 Token 的负对数似然:

图片

其中  表示长度为  的文本序列中的第  个Token, 表示前面的 Token, 是统一模型的参数。这一目标确保模型保留了 MLLM 骨干网络固有的推理和指令遵循能力。

用于图像生成的流匹配。 对于视觉部分,本文采用带有速度参数化(Velocity parameterization)的流匹配框架来对图像潜变量的连续分布进行建模。不同于预测噪声  的扩散模型,本文回归的是将概率密度从高斯噪声分布传输到数据分布的速度向量场 。根据流匹配和受最优传输启发的传输路径的常用表达形式,本文假设噪声  和真实图像潜变量  之间存在标准线性插值路径。在时间  的中间状态定义为 。目标是最小化预测速度与线性轨迹上目标漂移之间的均方误差:

图片

其中  是模型在给定上下文  条件下预测时间  速度向量的输出,而  表示沿线性轨迹的真实瞬时速度。

统一的训练目标。 最终的训练目标是离散和连续损失的加权总和:

图片

其中  和  是平衡两种模态的标量超参数。在实践中,本文在不同的训练阶段(例如预训练与监督微调阶段)动态调整这些系数,以优先关注特定的能力(如视觉保真度或推理能力)。

训练pipeline

为了在遵循前面概述的架构原则的同时最大化训练效率,本文基于一个专门为理解任务优化的预训练 MLLM 进行初始化。由于基础 MLLM 缺乏视觉生成能力,本文设计了一个三阶段课程(curriculum),在将视觉合成技能与语义推理统一起来之前,逐步解锁这些技能。

阶段 1:生成头预训练。 在初始阶段,本工作专注于将新初始化的视觉生成头与 MLLM 的潜空间对齐。本文冻结了 MLLM 以保留其语义表示,仅训练生成头和投影器。遵循前人工作,本文跳过了 256px 的预训练,直接使用 512px 的固定分辨率来加速早期收敛。与以往仅依赖文本到图像数据进行初始化的方法不同,本文从一开始就混合使用了文生图和图像编辑数据集。这种多任务策略迫使生成头同时关注文本指令和视觉上下文 Token,为多模态条件对齐奠定了坚实的基础。

阶段 2:任意分辨率的持续预训练。 在稳定初始化的基础上,本文推进到可变分辨率的训练,以处理多样化的长宽比并增强视觉保真度。此时 MLLM 骨干网络仍保持冻结。本文对训练语料库进行了二次过滤,仅保留高美感样本,并丢弃那些长宽比极端且可能引起训练不稳定的样本。生成图像的分辨率控制在 512 到 1024 像素之间,而长宽比维持在 0.5 到 2.0 之间。对于图像编辑任务,保持输入条件与输出之间的像素级对齐至关重要。为此,本文进一步将条件图像的 VAE 潜变量显式地注入到视觉生成头中,以实现更好的像素级一致性。

阶段 3:统一监督微调。 最后一个阶段旨在进一步融合前几个阶段获得的视觉生成能力与预训练 MLLM 的推理能力。因此,包含 MLLM 骨干在内的整个模型均被解冻,以实现端到端的优化。训练语料库基于更严格的标准进一步过滤,并加入了额外 CoT 推理数据。通过将这些 CoT 数据与图像生成和编辑数据混合,模型被赋予了在视觉域执行生成之前,先通过文本推理进行规划的能力。

数据构建

介绍了 InternVL-U 为何能在仅有 4B 参数的情况下实现强大的生成与编辑能力——核心在于其构建的一套高质量、高语义密度的数据合成pipeline。

图片
图片
图片
  • 基础数据清洗与多粒度标注
    • 开源数据整合与清洗:收集了海量开源的文生图和图像编辑数据,并通过多维度过滤(美学评分、分辨率、去重、去水印、安全过滤)获取高质量子集。
    • 多粒度 Caption 打标:利用先进的 MLLM(如 Qwen2.5-VL)生成从简短(Concise)、密集(Dense)到以人为中心(Human-centric)的不同粒度图像描述,增强文本与视觉概念的绑定。
  • 四大高语义密度垂直领域数据合成
    1. 以文本为中心(Text-centric):为了解决生成模型中"文字乱码"的问题,专门设计了中英双语的渲染与编辑pipeline。包括在纯色或自然背景上动态排版文字,以及利用 OCR 和大模型结合的精准文本替换数据。
图片

图片2.  以科学为中心(Science-centric):针对物理、化学、生物和计算机科学,利用编程工具(如 GeoGebra、SVG、matplotlib)合成具有严格逻辑和高度结构化的视觉文本数据(如复杂的物理受力图、二叉树结构图等)。图片

图片3.  以空间几何为中心(Spatial-centric):针对空间关系的精准控制,合成了包含3D立体几何旋转、平移、多视图 CAD 等数据,确保模型具备严格的三维空间感知能力。图片

图片4.  以幽默/热梗为中心(Humor-centric/Meme):设计了包含文本检测、消除、指令生成的五阶段pipeline,专门用于表情包(Meme)的生成与二次编辑,捕捉人类的幽默、讽刺等抽象情绪。图片

图片
  • 核心杀手锏:以推理为中心的数据合成 (Reasoning-centric / CoT Paradigm) :
    • 解决"抽象指令"痛点:用户通常给出的指令非常简短模糊(如"画一个过周末的表情包"或"把这个改成玻璃材质")。
    • 思维链增强:引入 CoT,利用大模型作为"翻译官",在原始输入和最终输出之间插入显式的推理步骤。将抽象指令转化为包含具体对象细节、属性约束、执行步骤的详细描述,为模型提供更清晰、稳定的监督信号。
图片
图片
图片

实验评估

通过大量的基准测试,全面验证了 InternVL-U 在"理解-推理-生成-编辑"四个维度的全能表现及"越级"战斗力。

  • 实验设置与轻量化优势
    • 模型总参数量仅为 4B(2B 的理解骨干 + 1.7B 的视觉生成头),但在测试中全面对标甚至超越了规模是其数倍(如 14B 甚至 20B)的统一多模态模型和专用生成模型。
图片
  • 多模态理解与推理 (强大的基本盘) :
    • 无灾难性遗忘:在赋予模型生成和编辑能力后,InternVL-U 在 MME-P、OCRBench、MMMU 等 7 个主流理解榜单上依然保持了顶尖水平,大幅超越同级别的统一模型(如 Janus-Pro, Ovis-U1),并在 MMMU 上打平了 14B 参数的 BAGEL。
图片
  • 图像生成能力 (Text-to-Image Generation) :
    • 通用生成:在 GenEval 和 DPG-Bench 上取得统一模型中的最高分,证明其在物体组合、属性绑定方面的精准度。
    • 文本渲染(拔尖能力):在 CVTG-2k 和 LongText-Bench 上表现出断层式的领先,完美解决了以往统一模型难以渲染清晰、准确中英双语文字的缺陷。
    • 知识密集型生成:得益于 CoT 策略,在 WISE 和 GenExam(包含数理化生等学科题目)榜单上,模型能够正确调用内在的世界知识生成符合科学事实的图像,CoT 的加入带来了极其显著的性能飞跃。
图片
图片
图片
图片
图片
图片
图片
图片
图片
  • 图像编辑能力 (Image Editing) :
    • 通用与文本编辑:在常规编辑榜单中展现了高保真的材质替换与风格迁移能力。为了评估文本编辑,本文还专门提出了一个新的高质量基准 TextEdit,在这个榜单上,InternVL-U 的 F1 分数直接对齐了闭源商业大模型(GPT-Image-1.5, Nano Banana Pro),远超开源竞品。

    • 推理驱动编辑:在高度依赖逻辑推导的 RISEBench 榜单上,加入 CoT 策略的 InternVL-U 得分从 3.6 暴涨至 9.4,击败了所有开源统一模型以及专用的 Qwen-Image-Edit。模型能够完美执行如"时间计算"、"算法规则(二叉树插入)"等复杂逻辑约束下的修改。

图片
图片
图片

结论

InternVL-U,一个统一的多模态模型,有效实现了理解、推理、生成与编辑能力的普及。通过遵循统一上下文建模(Unified context modeling)、特定模态模块化(Modality-specific modularity)以及视觉表示解耦(Decoupled visual representations)的原则,本文架构将强大的生成能力无缝集成到了表现优异的理解骨干网络中。

为了进一步弥合高层智能与视觉生成之间的鸿沟,本文引入了结合思维链(CoT)范式的全面数据合成pipeline,使模型能够将用户抽象的意图与精准的视觉执行完美对齐。实证结果证实,InternVL-U 不仅在知识密集型的生成和编辑任务中表现出色,而且在多模态理解与推理基准测试中依然保持了极具竞争力的性能。

希望 InternVL-U 能够作为一个强大的基线模型,从而加速整个社区在开发全面、全能且面向 AGI(通用人工智能)的统一多模态模型(UMMs)方面的研究进程。

参考文献

[1] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

4B参数多模态模型InternVL-U开源:理解生成编辑全能,性能超越14B

InternVL-U是国产开源多模态模型,仅4B参数实现理解、生成、编辑统一,性能超越14B模型。采用思维链数据合成,支持复杂指令,代码和模型已开源,适合AI研究和应用开发者。 Tags: 多模态模型 InternVL-U 开源AI 图像生成 思维链...