OpenVision 3采用VAE与ViT结合的统一架构,通过双分支训练同时优化图像生成与理解能力。实验显示,其在生成任务上gFID达1.89,超越CLIP;在多模态理解任务中与CLIP性能相当,实现了单一模型的高效视觉表示学习。
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Letian Zhang等
论文链接:https://arxiv.org/abs/2601.15369v1
项目链接:https://ucsc-vlaa.github.io/OpenVision3/
模型链接:https://huggingface.co/collections/UCSC-VLAA/openvision-3
亮点直击
统一架构:OpenVision 3是一种先进的视觉编码器,能够学习单一、统一的视觉表示,同时服务于图像理解和图像生成任务。 简洁设计:核心架构非常简洁,将 VAE 压缩后的图像隐空间变量输入到 ViT 编码器中,并训练其输出以支持两个互补的角色(重建与语义理解)。 协同优化:通过在共享隐空间中联合优化重建驱动和语义驱动的信号,编码器学习到的表示在两种机制下都能很好地协同和泛化。
解决的问题
统一建模的瓶颈:以往的研究通常需要分别为生成任务(捕捉低级像素特征)和理解任务(捕捉高级语义特征)适配单独的编码器。现有的统一尝试通常依赖复杂的离散 token 设计(如矢量量化 VQ)或预训练检查点,且构建统一特征空间和高效训练流程仍然不够透明。
提出的方案
VAE-ViT 混合架构:使用冻结的 FLUX.1 VAE 将图像压缩为隐空间变量,然后通过从头训练的 ViT 提取统一特征。 双分支解码: 重建分支:专注于高质量的像素级图像重建,通过添加噪声来增强生成的泛化能力。 理解分支:通过联合对比学习和图像字幕(Image Captioning)目标进行优化,增强语义特征。
应用的技术
FLUX.1 VAE:用于初始图像压缩,将输入降采样 。 Vision Transformer (ViT):处理 VAE 隐空间变量,patch 大小设为 ,总压缩率为 。 噪声注入 (Noise Injection):在重建分支的统一表示中加入高斯噪声,以提升生成能力的鲁棒性。 多目标损失函数:结合了 重建损失、LPIPS 感知损失、对比损失(Contrastive Loss)和字幕损失(Captioning Loss)。
达到的效果
生成性能:在 ImageNet 上,OpenVision 3 的 gFID 达到 1.89,大幅优于标准的 CLIP 基编码器(2.54),并在 rFID 和 gFID 上优于其他统一分词器。 理解性能:在多模态理解方面,将其插入 LLaVA-1.5 框架后,性能与标准 CLIP 视觉编码器相当(例如在 SeedBench 上 62.4 vs. 62.2,在 POPE 上 83.7 vs. 82.9)。
方法
动机
开发统一的分词器(Tokenizer)是实现生成与理解统一的关键步骤,但这往往受阻于建立统一特征空间的困难以及低效的训练过程。以往的研究提出了许多令人印象深刻的方法来消除这些障碍。然而,关于构建统一表示的探索仍处于初步阶段,且相关的训练流程对社区而言依然不够透明。提出了 OpenVision 3 模型,该模型通过 VAE 和 ViT 以一种有效且直接的方式构建了统一的视觉表示空间。展示了如何在 VAE 隐空间内从头开始高效地训练一个统一的分词器。
OpenVision 3:一种统一分词器
OpenVision 3 使用 VAE 编码器和 Vision Transformer (ViT) 来提取统一的视觉特征。输入图像 首先由来自 FLUX.1-dev 的 VAE 编码器 编码为 VAE 隐空间变量 ,随后的训练过程完全在 VAE 隐空间下进行。接着,VAE 隐空间变量被输入到 ViT 编码器 中,以提取用于理解任务和生成任务的统一表示 。
在 VAE 阶段,FLUX.1 VAE 将图像的高度和宽度分别下采样 。因此,本文将 ViT 的 patch 大小调整为 ,使得整体压缩率为 ,这与常见设置保持一致。形式化表示如下:
其中 是 VAE 隐空间变量通道数, 是 ViT 的维度。编码后的统一特征 随后进入重建分支和理解分支进行解码。OpenVision 3 采用两个完全独立的分支来培养其提取生成性和解释性视觉表示的能力,其各自的架构详述如下。
重建分支 (Reconstruction Branch)重建解码部分镜像了分词器的结构,保持了近乎对称的配置。在解码之前,本文首先向统一表示中添加噪声,以提高生成能力的泛化性。扰动后的特征 是通过添加按样本特定强度缩放的高斯噪声生成的:
其中 是从 均匀采样的, 是一个常数。然后,本文使用一个 patch 大小为 的 ViT 解码器和一个线性层将加噪后的统一特征 转换回 VAE 隐空间变量 。接下来,应用 VAE 解码器将 解码为重建图像 。重建损失包括图像 和 VAE 隐空间变量 的重建损失,以及基于 LPIPS 的感知损失。整个重建损失可以公式化为:
理解分支 (Understanding Branch)理解分支的范式总体遵循 OpenVision 的设计,即执行对比学习和图像字幕生成。如图 1 所示,本文使用文本编码器提取字幕特征 ,以便与统一视觉特征 计算对比损失。同时,本文利用文本解码器从统一表示中自回归地预测合成字幕,并计算相应的字幕损失。形式化地,理解损失可以表示为:
总体训练目标为:
在训练过程中,本文将 配置为 的两倍。降低 有助于在保持理解能力不受损的同时,保留生成质量。
训练设置
训练阶段与分辨率:根据 CLIPA 中得出的结论,本文对分词器采用渐进式训练策略,从低分辨率过渡到高分辨率输入。本文首先在 分辨率下预训练分词器,然后在 或 下进行微调。两个训练阶段的 epoch 分配保持在约 10:1 的比例。通过将大部分计算集中在低分辨率阶段,这种方法在获得卓越性能的同时,显著降低了通常与高分辨率训练相关的计算开销。
训练细节:如图 1 所示,本文使用预训练的 FLUX.1 VAE 并在整个训练过程中将其冻结。所有其他组件(包括 ViT 编码器、ViT 解码器、文本编码器、文本解码器和线性层)均随机初始化并在整个训练过程中保持解冻状态。对于这两个训练阶段,全局批大小分别为 8K 和 4K,基础学习率采用余弦衰减,分别为 和 。详细参数配置请参见表 1。该模型在由 LLaVA-Llama-3 重新标注的 DataComp 数据集上进行训练,这保证了训练数据的高质量。
实验
实验设置
为了全面评估统一分词器的性能,本文分别评估了重建、生成和理解性能。在生成方面,遵循 RAE 配置,使用 DiT 和宽 DDT 头训练生成模型,并评估 OpenVision 3 的生成保真度。在理解方面,在 LLaVA-1.5 框架下使用该分词器训练视觉-语言模型,并在多个下游多模态基准上评估理解性能。
性能表现
重建性能:OpenVision 3 在各项指标上均显著优于现有的统一分词器。例如,在 ImageNet 上,OpenVision 3 实现了 30.33 dB 的 PSNR,大幅领先 UniTok (25.34 dB) 和 Vila-U (22.24 dB)。在感知质量(LPIPS)方面,得分为 0.061,优于 UniTok 的 0.132。 生成性能:在使用 RAE 框架进行测试时,OpenVision 3 在 gFID、Inception Score (IS)、Precision 和 Recall 等指标上均超越了其他分词器(包括 CLIP 和 SD-VAE 等)。
理解与重建的相互作用
为了探究这两个目标之间的相互影响,本文进行了消融实验:
移除重建损失:仅使用语义损失训练时,重建损失(像素级和隐空间变量级)依然显著下降。这表明语义目标对图像重建有显著贡献。 移除理解损失:仅使用重建信号训练时,对比损失几乎停滞,但字幕损失略有下降。有趣的是,加入语义损失反而提高了重建性能,进一步证明了这两个分支之间存在互惠互利的协同关系。
结论
OpenVision 3,这是一种用于理解和生成的统一视觉编码器。本文创新性地将 VAE 与 ViT 结合形成统一架构,并生成可服务于不同下游任务的单一、统一表示。为了高效训练该分词器,提出了一种结合重建驱动和语义驱动信号进行联合学习的新训练范式。综合评估表明,本文模型通过低成本训练在生成和理解任务上均取得了优异的结果。OpenVision 3 在重建和生成方面优于当前其他的统一分词器,并在语义任务上表现出与 CLIP 相当的能力。
参考文献
[1] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论