
- 论文链接: https://arxiv.org/pdf/2601.04720
- 开源代码: https://github.com/QwenLM/Qwen3-VL-Embedding
- 模型集合: https://huggingface.co/collections/Qwen

亮点直击
- 推出了基于 Qwen3-VL 基础模型的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列模型。一套端到端的高精度多模态搜索pipeline,能够将文本、图像、视觉文档和视频映射到统一的表示空间。
- Embedding 模型在 MMEB-V2 基准测试中得分为 77.8,排名第一,且支持俄罗斯套娃(Matryoshka)表示学习和量化,兼顾了性能与效率。
图 1:统一多模态表示空间的图示。 Qwen3-VL-Embedding 模型系列将多源数据(文本、图像、视觉文档和视频)表示为公共流形。 通过跨模态(例如文本"城市建筑"及其相应图像)调整语义概念,该模型实现了对复杂视觉和文本信息的整体理解。解决的问题
- 多模态内容的激增:互联网上充斥着图像、文档、视频等多种数据,传统仅基于文本的搜索无法满足需求。
- 跨模态语义对齐难:需要精准理解和匹配不同模态间的语义概念(如"城市建筑"文本与对应图片的匹配)。
- 复杂文档与长视频处理:现有模型在处理包含密集信息的图表、长文档和长视频时往往力不从心。
- 部署效率与存储成本:高维向量带来的存储和检索成本限制了大规模应用。
提出的方案
- 统一框架:基于强大的 Qwen3-VL 基础模型,构建了包含 Embedding(检索)和 Reranker(精排)的双模型架构。
- 多阶段训练策略:从大规模合成数据的对比预训练,到多任务对比学习与 SFT,再到从 Reranker 模型蒸馏,逐步提升模型能力。
- 数据工厂:构建了自动化的数据合成与清洗流水线,生成了超过 3 亿条高质量的多模态训练数据。
应用的技术
- 多阶段训练:预训练 -> 多任务微调 -> 蒸馏与模型合并。
- 困难负样本挖掘:通过两阶段筛选(召回与相关性过滤)提升数据质量。
- 知识蒸馏:利用 Cross-Encoder 架构的 Reranker 指导 Embedding 模型的训练。
- 俄罗斯套娃表示学习 (Matryoshka Representation Learning, MRL) :允许模型输出不同维度的向量,灵活适应不同存储需求。
- 量化感知训练 (Quantization-Aware Training, QAT) :支持 int8 和二进制量化,确保存储效率。
达到的效果
- SOTA 性能:Qwen3-VL-Embedding-8B 在 MMEB-V2 上取得 77.8 分,超越了包括闭源 API 在内的所有现有模型。
- 纯文本能力强:在 MTEB 多语言基准上得分为 67.9,保持了极具竞争力的纯文本检索能力。
- 高效部署:支持最大 32k token 输入,且通过 MRL 和量化技术显著降低了存储和推理成本。
模型架构
图 2:Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架构概述Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 旨在对多模态实例进行任务感知的相关性判断。
- Embedding 模型:采用双编码器 (Bi-encoder) 架构,生成实例的密集向量表示,并使用余弦相似度作为相关性度量。
- Reranking 模型:采用交叉编码器 (Cross-encoder) 架构,对查询-文档对 (Query-Document Pair) 提供更细粒度的相关性评估。
模型架构基础: 两者均基于 Qwen3-VL 骨干网络,使用因果注意力机制。经过大规模多模态、多任务相关性数据训练后,模型保留了骨干网络的世界知识、多模态感知和指令跟随能力,同时获得了评估相关性的能力。本工作训练了两种规模的模型——2B 和 8B。下表1总结了两者:

Embedding 方法: Embedding 模型提取多模态输入的任务感知密集向量。输入格式遵循 Qwen3-VL 上下文结构:
- System Message: 传入指令(Instruction),默认指令为 "Represent the user's input."。
- User Message: 传入待表示的多模态实例,可以是文本、图像、视频或其组合。
- 最后,在输入后附加一个
PAD (<|endoftext|>) token,该 token 对应的最后一层隐藏状态即为实例的密集向量表示。

Reranking 方法: Reranking 模型采用 Pointwise 排序方法。
- System Message: 传入判断相关性的指令,要求答案只能是 "yes" 或 "no"。
- User Message: 包含具体的
<Instruct> 以及待评估的查询和文档。 - 输出: 通过计算模型预测下一个 token 为 "yes" 或 "no" 的概率来获得相关性评分。


数据
为了赋予模型跨越不同模态、任务和领域的通用表示能力,策划了一个大规模数据集。数据集内不同类别的分布如图 3 所示。然而,无论是公开可用的数据还是专有的内部数据,在这些维度上都表现出显著的不平衡,并且在特定场景中存在明显的稀缺性。为了解决这些挑战,我们利用数据合成来构建一个平衡的训练语料库,确保对所有模态、任务和领域进行稳健的覆盖。

数据集格式
完整的数据集包含多个子数据集,表示为 。每个子数据集 由一个四元组 定义,结构如下:
- 指令 (Instruction, ) :一段文本描述,定义了该子数据集特定的相关性标准和任务目标。
- 查询 (Queries, ) : 个查询对象的集合,。每个 可以由文本、图像、视频或其任意多模态组合构成。
- 语料库 (Corpus, ) : 个文档对象的存储库,。与查询类似,每个 可以是单一模态,也可以是文本、图像和视频的多模态组合。
- 相关性标签 (Relevance Labels, ) :该组件标识查询与文档之间的关系,表示为 。对于每个查询 , 表示相关文档(正样本)集合,而 表示不相关文档(负样本)集合。
附录 A 中展示了代表性的数据集示例。
数据合成
采用数据合成来构建各种子数据集 。具体来说,将 Qwen3 Embedding中引入的方法扩展到了多模态场景。如 图 4 所示,首先策划了一个多样化的种子多模态内容 (例如,来自 Web 的图像/视频)。然后,利用 Qwen3-VL-Instruct 生成:(1) 合成指令,(2) 合成查询,以及 (3) 伪相关性标签。
具体过程如下:
- 种子内容策划:从公开数据集和网络抓取中收集了大量的图像和视频,经过重复数据删除和安全过滤,形成了种子语料库 。
- 指令生成:对于 中的每个项目,我们提示 Qwen3-VL-Instruct 生成描述潜在检索任务的指令 。例如,"为这个图像生成一个搜索查询"或"描述一个与此视频剪辑相匹配的用户查询"。
- 查询生成:基于指令和内容,模型生成相应的查询 。为了增加多样性,我们提示模型生成不同粒度(例如,粗粒度的类别与细粒度的描述)和不同模态(例如,文本查询、相关图像查询)的查询。
- 伪标签生成:最初生成的查询与种子内容配对作为正样本,形成 。为了进一步细化这些标签,使用在初步数据上训练的早期 Embedding 模型版本执行检索,并应用下一节中描述的过滤技术。
这种合成方法使我们能够创建大规模、多样化且任务特定的训练数据,解决了自然发生的多模态检索数据稀缺的问题。
正样本优化与困难负样本挖掘
困难负样本在对比表示学习中起着至关重要的作用。为了提高正样本对的质量并识别有效的困难负样本,实施了一个自动化的两阶段挖掘流水线:召回 (Recall) 和相关性过滤 (Relevance Filtering)。
召回 (Recall) :对于每个子数据集 ,使用一个 Embedding 模型提取所有查询 和文档 的表示。对于每个查询 ,我们基于余弦相似度检索出 Top-K 最相关的候选文档 ,其相关性分数记为 。
相关性过滤 (Relevance Filtering) :最后,基于相关性分数 优化相关性标签 以消除噪声:
- 正样本优化 (Positive Refinement) :仅当至少有一个正文档 的得分 时才保留查询 ,其中 是作为分数阈值的超参数。如果没有这样的候选文档存在,则丢弃查询 。
- 困难负样本选择 (Hard Negative Selection) :对于一个有效的查询 ,我们计算其优化后的正样本的平均得分 。任何非正文档 仅当其得分满足 时才被选为困难负样本,其中 是一个小的安全边际,用于防止包含"假阴性"样本。
训练策略
为了训练我们的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker,采用了多阶段训练流水线,如图 5 所示。这种方法旨在减轻大量弱监督数据与稀缺高质量样本之间的数据不平衡。模型首先在大量弱监督、嘈杂的数据上进行预训练,以建立相关性理解的基线并提升泛化能力。然后,我们在高质量、特定任务的数据集上进行微调,引导模型进行更精确的相关性评分和细粒度交互。除了上述原因外,多阶段训练策略的另一个目标是引导提升数据质量和模型性能。随着训练通过连续阶段进行,模型的能力不断增强。这种改进反过来促进了更有效的数据挖掘,从而优化了训练数据的质量。这种迭代循环最终导致模型整体性能的大幅提升。

多阶段训练
实施了如下的三阶段训练策略:
阶段 1:对比预训练 (Stage 1: Contrastive Pre-training)为了对齐多模态表示空间并增强对各种模态、任务和领域的世界知识理解,首先在 Qwen3-VL-Instruct 模型上进行对比预训练。在此阶段,利用了 3 亿个使用第 3 章中描述的合成流水线生成的合成多模态对。这些数据包含了广泛的领域和任务,为稳健的表示学习提供了基础。由此产生的模型记为 Qwen3-VL-Embedding: s0。
阶段 2:多任务对比学习 (Stage 2: Multi-task Contrastive Learning)在此阶段,我们在包含 4000 万个样本的高质量数据集上微调 s0 模型。该数据集是通过利用 s0 模型的检索能力,从合成池以及公开和专有数据源中挖掘得到的。此阶段不仅通过更高质量的数据细化了 Embedding 模型,还利用特定的检索数据子集训练了 Qwen3-VL-Reranker。由此产生的 Embedding 模型记为 Qwen3-VL-Embedding: s1。
阶段 3:蒸馏与模型合并 (Stage 3: Distillation and Model Merging)为了进一步提升检索性能,我们利用 Qwen3-VL-Reranker 模型的评分能力,将其知识蒸馏到 Embedding 模型中。我们使用 s1 模型挖掘了 400 万个困难负样本,创建了一个专注于具有挑战性区分的训练集。这一过程产生了 Qwen3-VL-Embedding: s2。最后,为了保持通用能力并在广泛的任务中保持平衡的性能,我们将 s2 模型的权重与 s1 模型合并,得到最终模型 Qwen3-VL-Embedding: s3。
实现细节
基础模型Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列基于 Qwen3-VL-Instruct 模型 (Qwen Team, 2024) 构建,利用了其强大的多模态理解和推理能力。
训练配置所有模型均使用 AdamW 优化器进行训练。对于 Qwen3-VL-Embedding 系列,将最大学习率设置为 。对于 Qwen3-VL-Reranker 系列,最大学习率为 。为了提高训练效率,我们采用了 LoRA 微调并启用了 Flash Attention。
输入配置模型支持的最大上下文长度为 32k tokens。图像输入被调整大小以保持其原始纵横比,最长边限制为 1280 像素。对于视频输入,我们每秒采样一帧,最大帧数限制为 64。
训练目标
下面详细介绍了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型的训练目标。
Embedding 模型的损失函数
Embedding 模型的训练采用了多任务学习目标,结合了 InfoNCE 损失、CoSent 损失、MRL 损失、二值量化损失以及蒸馏损失。
检索任务 (Retrieval Tasks)对于检索任务,我们采用 InfoNCE 损失。对于批次 中的查询 、其正文档 和负文档集合 ,损失定义为:
其中 表示余弦相似度, 是温度超参数。我们在批次内使用负样本,并辅以从第 3.3 节所述挖掘出的困难负样本。
语义文本相似度 (STS) 任务 (Semantic Textual Similarity Tasks)对于 STS 任务,为了利用细粒度的相似度分数,使用 CoSent 损失:
其中 和 分别表示正样本对和负样本对的集合, 是缩放因子。
分类任务 (Classification Tasks)对于分类任务,我们将标签描述视为查询,将输入(图像/视频)视为文档。损失类似于 ,但在构建负样本时,我们仅包括来自不同类别的样本,并排除同一类别的任何样本以避免假阴性。
知识蒸馏 (Knowledge Distillation)在第 3 阶段,我们应用知识蒸馏,使 Embedding 模型的分数分布与 Reranker 教师模型的分数分布对齐。对于查询 和一组候选文档 ,蒸馏损失为:
其中 和 分别是教师和学生模型在 上的 softmax 归一化得分分布。
俄罗斯套娃表示学习 (Matryoshka Representation Learning, MRL)为了支持灵活的嵌入维度,采用了 MRL。对于一组嵌套维度 ,总损失为:
其中 表示截断到前 维的嵌入, 是权重系数。
量化感知训练 (Quantization-Aware Training)为了确保二进制量化后的高性能,我们在训练期间加入量化损失。如 (Zhang et al., 2025c) 建议,不对嵌入本身进行二值化,而是通过伪量化正则化项来促进二值化友好性:
其中 是嵌入向量,sg 表示停止梯度 (stop-gradient) 操作。这鼓励嵌入向量靠近超立方体的顶点。
Reranker 模型的损失函数
我们将重排序构建为一个二分类问题:给定一个查询-文档对,模型预测一个特殊的 yes 标记(相关)或 no 标记(不相关)。
其中 表示 VLM 分配的概率。对于正样本对,标签 为 "yes",对于负样本对则为 "no"。该损失函数鼓励模型为正确的标签分配更高的概率,从而提高排序性能 (Dai et al., 2025)。
在推理过程中,最终的相关性分数是通过对 yes 和 no 标记的 logits 之差应用 sigmoid 函数计算得出的:
评估结果


- MMEB-V2 基准测试 :Qwen3-VL-Embedding-8B 取得了 77.8 的总分,在图像、视频、视觉文档等所有子任务中均表现优异,超越了 VLM2Vec、GME 以及闭源模型(如 Google Gemini Embedding, OpenAI text-embedding-3-large)。
- 视觉文档检索 (Visual Document Retrieval) :在 VisRAG、ViDoRe 等多个基准上,Qwen3-VL-Embedding 和 Reranker 系列模型展现了统治级的性能,优于 ColPali 和 ColQwen2 等模型。
- 纯文本基准 (Text Benchmarks) :虽然是多模态模型,但在 MMTEB 纯文本榜单上,Qwen3-VL-Embedding-8B 达到了 67.9 的均分,与同等规模的纯文本 Embedding 模型能力相当。
- Reranking 性能 :Qwen3-VL-Reranker-8B 在绝大多数重排序任务中显著优于基线模型,相比 2B 版本有大幅提升。
消融实验

- MRL 与量化:实验表明,随着维度降低,性能会有所下降,但在合理范围内(如 1024 降至 512)性能损失微小(约 1.4%),却能带来 50% 的存储节省。Int8 量化几乎不损失精度,而二进制量化在低维时会有较明显的性能下降。
- 时空粒度影响:增加图像的 Token 数和视频的帧数能提升性能,但存在边际效应递减,过长的上下文甚至可能导致轻微的性能回退。
- 多阶段训练效果:消融研究显示,从 S0 到 S1(多任务微调)提升显著;S2(蒸馏)大幅提升了检索任务性能但牺牲了部分分类能力;最终的 S3(合并)成功平衡了各项能力,实现了最佳的综合性能。


结论
本报告介绍了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker,这是面向多模态检索的SOTA模型系列。通过将多阶段训练流水线与高质量多模态数据相结合,并最大程度地利用 Qwen3-VL 基础模型的多模态知识和通用理解能力,Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列在广泛的多模态检索基准测试中实现了前所未有的性能,同时保持了强大的纯文本能力。
此外,通过引入俄罗斯套娃表示学习(Matryoshka Representation Learning)和量化感知训练(Quantization-Aware Training),Qwen3-VL-Embedding 系列具备了卓越的实际部署特性,在保持卓越性能的同时显著降低了下游任务的计算成本。展望未来,有前景的研究方向包括扩展对更多模态的支持、开发更高效的训练范式、增强组合推理能力以及建立更全面的评估协议。本工作相信这些模型代表了多模态检索技术的重大进步,并希望它们能推动这一快速发展领域的进一步创新。
参考文献
[1] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking