2025年5月18日星期日

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Wenxuan Wang等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2505.10562

亮点直击

  • 提出了一种新的视觉分词器训练范式,以释放视觉分词器在下游自回归任务中的潜力。该视觉分词器能够感知并针对下游训练进行优化。
  • 引入了一种简单而有效的端到端视觉分词器调优方法ETT。ETT利用分词器的码本嵌入而不仅限于离散索引,并应用词级描述损失来优化视觉分词器的表示。
  • ETT显著提升了基于下一词预测范式的下游任务结果,包括多模态理解和生成任务,同时保持了分词器的重建性能。
图片

总结速览

解决的问题

  • 现有视觉分词器(vision tokenizer)的训练与下游任务解耦,仅针对低层重建(如像素级)优化,无法适应不同下游任务(如图像生成、视觉问答)的多样化语义需求。
  • 分词过程中的信息损失可能成为下游任务的性能瓶颈(例如图像中文本的分词错误导致生成或识别失败)。
  • 现有自回归模型仅使用分词器的离散索引,忽略了视觉嵌入表示的学习,导致视觉-语言对齐困难。

提出的方案

  • 端到端联合优化:将视觉分词器与下游自回归任务(如文本生成)共同训练,同时优化分词器的重建目标和下游任务目标(如描述生成)。
  • 利用词嵌入而非离散索引:引入分词器码本(codebook)的连续视觉嵌入表示,而非仅使用离散索引,增强视觉语义学习。
  • 保持简洁性:无需修改大语言模型(LLM)的原始文本码本或架构,仅通过调整分词器的训练方式提升性能。

应用的技术

  • 多任务联合训练:结合图像重建损失(如VQ-VAE的量化损失)和下游任务损失(如描述生成损失)。
  • 连续嵌入表示:通过分词器的码本嵌入(而非离散token索引)传递视觉信息,改善视觉-语言对齐。
  • 轻量化集成:直接复用现有分词器和LLM的架构,仅通过梯度回传优化分词器的码本表示。

达到的效果

  • 性能提升:在多模态理解(如视觉问答)和视觉生成任务上,相比冻结分词器的基线模型,性能提升2%-6%。
  • 保留重建能力:在优化下游任务的同时,不损害分词器的原始图像重建能力。
  • 通用性与易用性:方法简单易实现,可无缝集成到现有多模态基础模型(如Emu3)中,适用于生成和理解任务。

方法论

视觉分词器

ETT中的视觉分词器。本文主要采用IBQ框架进行图像分词,下采样因子设为 。码本中每个离散token的维度为 。在原始IBQ基础上,将码本大小调整为131,072。分词器训练的损失函数  为:

图片

其中  为像素重建损失, 为量化嵌入与编码特征间的量化损失, 为来自 LPIPS的感知损失, 为来自 PatchGAN的对抗损失, 为熵损失。 和  分别为对抗损失和熵损失的权重。

端到端视觉分词器调优

从离散索引到码本嵌入。Emu3等类似方法仅在下游任务中使用视觉分词器的离散索引,丢弃了视觉分词器嵌入的丰富表示能力。这些方法仅依赖离散码本索引,阻碍了梯度传播,使得端到端训练无法实现。为解决这一限制,本文提出ETT,直接将视觉分词器的码本嵌入连接到 LLM,有效利用视觉分词器中编码的更丰富特征表示,同时实现端到端训练。

LLM 桥接端到端调优。如下图 1 所示,给定输入图像 ,本文首先从分词器的码本中获取其量化嵌入 。为确保与预训练 LLM 的兼容性,采用带有 GeLU 激活的多层感知机作为轻量级投影器。该投影层将量化视觉嵌入  映射到 ,其中  表示大语言模型的隐藏维度大小。由于整个计算图(包括预训练 LLM 和视觉分词器)保持可微分,整个结构可以通过基于梯度的优化进行端到端训练。对于文本输入 ,利用预训练 LLM 的分词器和文本嵌入层将其转换为文本 token 嵌入 

图片

重建能力的保持。虽然端到端训练增强了视觉分词器的表示能力,但保持其重建能力以确保高保真图像合成至关重要。为此,本文将整体训练目标设定为描述损失  和 VQ 损失  的组合。具体而言,本文将图像 token 嵌入  和文本 token 嵌入  同时输入 LLM。对于文本 token,应用交叉熵(CE)损失:

图片

直接复用视觉重建的损失函数 。端到端视觉分词器调优目标为:

图片

其中  是控制多模态感知与视觉重建权衡的损失权重。通过将分词器编码器、解码器与 LLM 联合训练,本文的方法在保持模型重建能力的同时,确保学习到的视觉 token 在语义上具有意义,并能有效支持多模态理解和生成任务。

多模态生成与理解的训练方案

下游多模态感知与生成的完整训练流程包含三个连续训练阶段。采用的训练数据由公开图像数据集构成,并辅以如下表 1 所示的多样化理解和生成指令数据。

图片

阶段1:对齐学习

第一阶段旨在有效建立视觉-语言对齐。在预训练大语言模型和视觉分词器保持冻结状态下,仅训练视觉投影层(使用图像到文本描述损失 )。该设置使LLM能够直接从分词器获取视觉概念和实体,有效桥接视觉与语言模态。具体使用从构建数据集SOL-recap(包含3200万来自公开数据集SA-1B、OpenImages和LAION的图文对)中精选的120万图像子集。所有图像均采用改进版描述引擎重新标注。此阶段高质量数据可提升训练稳定性和跨模态对齐能力。

阶段2:语义学习

作为整个训练流程最关键的环节,本阶段实现端到端视觉分词器调优。解冻LLM、投影层和视觉分词器权重,联合使用公式(3)定义的描述损失与重建损失进行优化。采用SOL-recap的120万高质量图文对子集进行多模态理解与重建学习。该阶段高效学习视觉分词器的感知能力,同时支持视觉重建和理解任务。精心设计的阶段2能在保持原始重建能力的同时,增强视觉分词器与下游任务的协同性。

阶段3:后训练

通过端到端调优获得增强版视觉分词器后,采用标准后训练流程实现多模态理解与生成。本阶段冻结视觉分词器,调优视觉投影层和LLM层,分别训练两个专用模型:

  • ETT-Chat:增强多模态理解中的指令跟随能力,使用SOL-recap、LLaVA-OneVision和Infinity-MM等多源高质量指令数据
  • ETT-Gen:优化文本到图像生成,包含1400万Flux模型生成的AI样本,以及从开源网络数据筛选的1600万图文对(基于图像分辨率和LAION美学评分)

实验结果

训练设置

数据准备。(1)视觉语言预训练&视觉分词器数据集。采用[8]的预处理流程优化SA-1B、OpenImages和LAION,分别得到11M、7M和14M张图像。使用[8]的标题生成引擎产出32M条高质量描述。(2)监督微调数据集。对于理解任务,从Infinity-MM提取31.8M个多任务样本,从LLaVA-OneVision筛选3.5M条优先复杂对话结构的指令数据;对于生成任务,通过Flux模型生成14M个AI创作样本,并从开源网络数据精选16M个图文对,基于图像分辨率和美学评分进行过滤。

实现细节。在8个A100节点上使用Adam优化器训练ETT。三阶段批次大小分别设为1024、1024和1024,最大学习率为。采用0.03比例的预热策略,各阶段均使用余弦衰减调度器。除非特别说明,图像处理分辨率为,第三阶段消融实验基于LLaVA-mix-665K。所有实验均采用Qwen2.5-1.5B作为多模态序列建模的大语言模型。

ETT视觉分词器采用固定学习率的Adam优化器,超参数。训练50万步,全局批次大小256,输入分辨率。对抗损失权重,熵损失权重。判别器训练采用LeCAM正则化以提升稳定性。

多模态理解评估

在主流视觉语言感知基准上验证ETT,包括:任务专项评估(GQA、TextVQA)、幻觉检测(POPE)、开放域多模态理解(MME、MMBench、SEED-Bench、MM-Vet)以及科学推理(ScienceQA-IMG)。

如下表2所示,ETT在更小模型和数据规模下,持续超越Chameleon、LWM、Liquid等离散方法,凸显端到端调优策略的高效性。相比Show-o,ETT在显著减少训练数据的同时实现更优性能,证明其数据利用策略的有效性。与QwenVL-Chat、EVE、Janus等基于连续编码器的SOTA视觉语言模型相比,ETT在不依赖额外视觉编码器的情况下仍具竞争力,既简化架构又降低计算开销。ETT的成功源于视觉分词器的端到端训练方案,其有效协调了多模态理解与生成的内在冲突。

图片

视觉生成评估

在GenEval和T2I-CompBench基准上,全面评估文本到图像生成能力,对比基于扩散和自回归的SOTA方法(含专业模型与通用模型)。如下表3所示,在top-k=131,072(视觉词表大小)和top-p=1.0的推理配置下,本文的方法以较少LLM参数和小规模训练数据取得0.63的综合得分,超越SDXL等扩散模型。相比LlamaGen(专业模型)和Chameleon(通用模型)等自回归方法,ETT所需训练数据或参数量更少。结合提示词改写后,其性能逼近DALL-E3和EMU3等领先模型。在T2I-CompBench上,ETT在颜色、形状、纹理三个维度分别取得81.03、58.19和72.14分,与基于扩散的SOTA模型相当。这些结果充分验证了端到端视觉分词器调优方案的有效性。
图片

下图2展示了ETT生成的定性结果,可见其能准确遵循提示词生成多样化视觉内容。该模型擅长处理不同艺术风格、主体和背景的图像生成,可适应多种构图结构和审美偏好。

图片

消融实验

为验证ETT对下游多模态生成与理解任务的有效性,本文在多个主流理解基准(如SEEDBench-Img、GQA、TextVQA和MME-Perception)及文本到图像生成评估数据集GenEval上进行了全面消融研究。

端到端调优优势。首先探究ETT对促进多模态下游任务的有效性。为公平验证ETT优化视觉分词器特征表示的潜力,所有理解与生成任务模型均采用SOL-recap训练,理解任务额外使用LLaVA-mix-665K进行监督微调。如下表4所示,相比传统分词器利用方式,引入ETT在理解与生成任务上均带来显著性能提升。未采用端到端调优时,用码本嵌入替换离散索引可部分缓解信息损失问题,在多模态理解基准上带来明显增益;尽管该替换会降低视觉生成性能,但其建立了完全可微的模型架构,为端到端优化奠定基础。在此基础之上,引入视觉分词器的端到端调优相比传统设置(即首行)进一步提升了理解与生成性能,尤其在依赖视觉特征的任务上表现突出(如通用视觉问答↑5%、光学字符识别↑6%)。

图片

理解与重建的权衡。进一步研究ETT在视觉重建与多模态理解之间的内在任务权衡。如下表5所示,相比未调优基线(首行),调优视觉分词器始终为理解任务带来显著收益,但会以不同程度牺牲重建性能。仅用图像到文本理解任务调优分词器(第二行)在各类理解基准上取得最佳性能,但重建质量大幅下降(ImageNet 设置的rFID从1.033骤降至45.701);引入权重0.25的辅助重建目标后,理解精度略有下降而重建质量显著改善(rFID从45.701提升至1.648),表明联合训练理解与重建任务的重要性;将重建权重增至1.0可获得最佳重建rFID 1.500,但会导致感知能力最弱。因此本文选择作为默认重建损失权重以平衡两项任务。

图片

下图3可视化对比了引入ETT前后的重建结果。经ETT调优的视觉分词器在保持与原模型相当的低级视觉细节同时,增强了文本渲染等特定方面,表明ETT既能保留丰富的底层细节,又能改善高层语义表征。

图片

结论

本研究致力于解决多模态学习中视觉分词器的表征瓶颈问题,提出了一种简单而有效的端到端视觉分词器调优方法ETT。该方法通过采用码本嵌入替代纯离散索引,并施加分词级标题损失来实现分词器与下游训练的联合优化。实验表明,ETT在几乎保持分词器重建能力(甚至提升文本渲染等特定方面的重建性能)的同时,显著提升了纯解码器架构下的多模态理解与生成能力。

局限性与未来方向

当前工作的主要局限在于:端到端微调的数据规模和模型容量仍有扩展空间,以进一步提升视觉表征与下游任务性能。此外,现有方法聚焦于通过优化现有视觉分词器的视觉特征(利用LLM的语义能力)来构建简单有效的框架,而非从头设计兼具理解与生成能力的视觉分词器。虽然ETT证明了LLM驱动的语义反馈对增强视觉分词的有效性,但其仍依赖于对已有分词器的微调而非从零开发。因此,未来本文将探索从零开始端到端训练视觉分词器,以构建更全面、适应性更强的多模态表征方案。另外,突破图像与文本模态的局限(如引入视频与音频)也是值得探索的前沿方向。本文希望这一简单有效的方法能为超越视觉生成与理解的多模态基础模型发展提供启示。

参考文献

[1] End-to-End Vision Tokenizer Tuning

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

这个做图神器,一键将文本转换为图表,免费还无限制!

一图胜千言 点击上方  蓝字  关注艾康👆 获取更多实用 AI 工具/AI 玩法,一起 AI 创富~   先问大家一句,你是不是也有过这样的经历? 想表达一个特别棒的想法, 但苦于没有合适的方式展现 ;或者做PPT时, 为了一个图表改了好几个小时,最后发现还是丑得不行 。 ...