2026年1月11日星期日

DeepSeek V4春节突袭!编程能力碾压Claude,全球代码圈要变天?

编程之神,即将易主。

编程之神,即将易主。

大家好,我是指挥官,专注用AI工具提高工作效率,欢迎关注公众号,有福利给到大家。

DeepSeek又要搞事情了!就在大家准备过春节的时候,外媒Information爆出猛料:DeepSeek V4将在2月中旬(春节前后)正式发布。

这一次,他们不玩虚的,直接剑指全网公认的"编程王者"——Claude。

如果爆料属实,一个月后,全球程序员的饭碗和工作流,恐怕都要迎来一次大地震。

历史总是惊人的相似

配图

还记得去年春节前夕吗?

DeepSeek R1横空出世,直接在全网掀起了一场"推理风暴"。

讨论密度炸裂,社区反馈爆棚,这就是教科书级的"时间窗口效应"。

今年,DeepSeek V4似乎打算复刻这场"春节核爆"。

这不仅仅是一次常规升级,内部测试者已经放话了:这是一次质的跨越。

DeepSeek的发展路径非常清晰:

V3让世界看见,R1彻底引爆。

特别是R1,把"先思考、再作答"变成了显性过程,用极致的性价比击中了硅谷最敏感的神经。

现在,轮到V4登场了,而它的战场,是AI应用最核心的赛道——编程。

剑指王座:Claude危!

配图

2025年开局,Claude几乎垄断了"编程之王"的称号。

写代码、改Bug、重构,Claude确实强。

但DeepSeek V4不服。

据知情人士透露,DeepSeek内部基准测试显示:V4在编程任务上的表现,已经超越了Claude系列和GPT系列。

这就很有意思了。

以前我们说DeepSeek是"追赶者",现在它要弯道超车做"领跑者"。

对于我们普通用户和开发者来说,这意味着什么?

意味着你可能即将用上一个更聪明、更便宜、甚至开源的顶级编程助手。

四大杀招,招招致命

配图

V4凭什么敢叫板Claude?因为它手里握着四张王牌:

1. 超长上下文:工程师的"外挂"

写几十行代码,你感觉不到差距。

但如果你面对的是几万行的项目代码库呢?以前的模型会忘,会乱。

V4解决了这个问题,它能一次性理解庞大的代码库上下文。

在正确的位置插入功能、修复Bug,不迷路。这对企业级开发来说,简直是生产力革命。

2. 拒绝衰减:越学越精

很多模型练着练着,学到的特征会衰减。

V4在训练中提升了对数据模式的理解能力,稳如老狗,不容易出现"学了后面忘前面"的情况。

3. 逻辑严密:不降反升

V4的输出逻辑将更加严密清晰。

最关键的是,它在提升能力的同时,没有牺牲其他维度的性能。在AI界,这种"无退化"的提升,含金量极高。

4. 算法魔法:mHC

就在V4爆料前,DeepSeek发了一篇重磅论文《mHC: Manifold-Constrained Hyper-Connections》。

这篇论文解决了一个十年难题:大模型训练的不稳定性。

简单说,它把神经网络信号放大的倍数,从3000倍压缩到了1.6倍。

结果就是:推理能力提升,训练开销仅增加6.7%。

论文地址:https://arxiv.org/pdf/2512.24880

硬件不够,智商来凑

配图

大家都知道,我们面临芯片出口限制。

但这恰恰是DeepSeek最恐怖的地方。

V3的训练成本只有557.6万美元,是OpenAI和Google的零头。

这不是抠门,这是极致的算法优化。

V4延续了这个路线:不拼显卡数量,拼脑子。

如果在受限的硬件条件下,V4真的能干翻Claude,那这就证明了一件事:

在AI的赛场上,聪明的算法完全可以弥补硬件的短板。

这是一场属于"智力"的胜利。

最后留几个悬念:

会不会有蒸馏版让我们在本地跑?

API价格会不会再次把行业打回原形?

还会继续开源吗?

不管怎样,不到一个月,答案揭晓。

这不仅是工具的升级,更是效率的革命。

心如工匠,则术有专攻;思如破竹,则势不可挡。


加指挥官个人微信,即可获取AI工具大全一份


图片


独乐乐不如众乐乐,好东西要记得和大家分享,欢迎点击下面按钮关注指挥官公众号,加入收藏,点亮看,分享给周围的朋友们。


国产多模态搜索史诗级突破!Qwen3-VL登顶MMEB:支持30+语言,一套模型搞定图文视频

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Mingxin Li等

解读:AI生成未来
图片
  • 论文链接https://arxiv.org/pdf/2601.04720
  • 开源代码https://github.com/QwenLM/Qwen3-VL-Embedding
  • 模型集合https://huggingface.co/collections/Qwen
图片

亮点直击

  • 推出了基于 Qwen3-VL 基础模型的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列模型。一套端到端的高精度多模态搜索pipeline,能够将文本、图像、视觉文档和视频映射到统一的表示空间。
  • Embedding 模型在 MMEB-V2 基准测试中得分为 77.8,排名第一,且支持俄罗斯套娃(Matryoshka)表示学习和量化,兼顾了性能与效率。
图 1:统一多模态表示空间的图示。 Qwen3-VL-Embedding 模型系列将多源数据(文本、图像、视觉文档和视频)表示为公共流形。 通过跨模态(例如文本
图 1:统一多模态表示空间的图示。 Qwen3-VL-Embedding 模型系列将多源数据(文本、图像、视觉文档和视频)表示为公共流形。 通过跨模态(例如文本"城市建筑"及其相应图像)调整语义概念,该模型实现了对复杂视觉和文本信息的整体理解。

解决的问题

  1. 多模态内容的激增:互联网上充斥着图像、文档、视频等多种数据,传统仅基于文本的搜索无法满足需求。
  2. 跨模态语义对齐难:需要精准理解和匹配不同模态间的语义概念(如"城市建筑"文本与对应图片的匹配)。
  3. 复杂文档与长视频处理:现有模型在处理包含密集信息的图表、长文档和长视频时往往力不从心。
  4. 部署效率与存储成本:高维向量带来的存储和检索成本限制了大规模应用。

提出的方案

  1. 统一框架:基于强大的 Qwen3-VL 基础模型,构建了包含 Embedding(检索)和 Reranker(精排)的双模型架构。
  2. 多阶段训练策略:从大规模合成数据的对比预训练,到多任务对比学习与 SFT,再到从 Reranker 模型蒸馏,逐步提升模型能力。
  3. 数据工厂:构建了自动化的数据合成与清洗流水线,生成了超过 3 亿条高质量的多模态训练数据。

应用的技术

  • 多阶段训练:预训练 -> 多任务微调 -> 蒸馏与模型合并。
  • 困难负样本挖掘:通过两阶段筛选(召回与相关性过滤)提升数据质量。
  • 知识蒸馏:利用 Cross-Encoder 架构的 Reranker 指导 Embedding 模型的训练。
  • 俄罗斯套娃表示学习 (Matryoshka Representation Learning, MRL) :允许模型输出不同维度的向量,灵活适应不同存储需求。
  • 量化感知训练 (Quantization-Aware Training, QAT) :支持 int8 和二进制量化,确保存储效率。

达到的效果

  • SOTA 性能:Qwen3-VL-Embedding-8B 在 MMEB-V2 上取得 77.8 分,超越了包括闭源 API 在内的所有现有模型。
  • 纯文本能力强:在 MTEB 多语言基准上得分为 67.9,保持了极具竞争力的纯文本检索能力。
  • 高效部署:支持最大 32k token 输入,且通过 MRL 和量化技术显著降低了存储和推理成本。

模型架构

图 2:Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架构概述
图 2:Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架构概述

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 旨在对多模态实例进行任务感知的相关性判断。

  • Embedding 模型:采用双编码器 (Bi-encoder) 架构,生成实例的密集向量表示,并使用余弦相似度作为相关性度量。
  • Reranking 模型:采用交叉编码器 (Cross-encoder) 架构,对查询-文档对 (Query-Document Pair) 提供更细粒度的相关性评估。

模型架构基础: 两者均基于 Qwen3-VL 骨干网络,使用因果注意力机制。经过大规模多模态、多任务相关性数据训练后,模型保留了骨干网络的世界知识、多模态感知和指令跟随能力,同时获得了评估相关性的能力。本工作训练了两种规模的模型——2B 和 8B。下表1总结了两者:

图片

Embedding 方法: Embedding 模型提取多模态输入的任务感知密集向量。输入格式遵循 Qwen3-VL 上下文结构:

  • System Message: 传入指令(Instruction),默认指令为 "Represent the user's input."。
  • User Message: 传入待表示的多模态实例,可以是文本、图像、视频或其组合。
  • 最后,在输入后附加一个 PAD (<|endoftext|>) token,该 token 对应的最后一层隐藏状态即为实例的密集向量表示。
图片

Reranking 方法: Reranking 模型采用 Pointwise 排序方法。

  • System Message: 传入判断相关性的指令,要求答案只能是 "yes" 或 "no"。
  • User Message: 包含具体的 <Instruct> 以及待评估的查询和文档。
  • 输出: 通过计算模型预测下一个 token 为 "yes" 或 "no" 的概率来获得相关性评分。
图片
图片

数据

为了赋予模型跨越不同模态、任务和领域的通用表示能力,策划了一个大规模数据集。数据集内不同类别的分布如图 3 所示。然而,无论是公开可用的数据还是专有的内部数据,在这些维度上都表现出显著的不平衡,并且在特定场景中存在明显的稀缺性。为了解决这些挑战,我们利用数据合成来构建一个平衡的训练语料库,确保对所有模态、任务和领域进行稳健的覆盖。

图片

数据集格式

完整的数据集包含多个子数据集,表示为 。每个子数据集  由一个四元组  定义,结构如下:

  • 指令 (Instruction, ) :一段文本描述,定义了该子数据集特定的相关性标准和任务目标。
  • 查询 (Queries, ) : 个查询对象的集合,。每个  可以由文本、图像、视频或其任意多模态组合构成。
  • 语料库 (Corpus, ) : 个文档对象的存储库,。与查询类似,每个  可以是单一模态,也可以是文本、图像和视频的多模态组合。
  • 相关性标签 (Relevance Labels, ) :该组件标识查询与文档之间的关系,表示为 。对于每个查询  表示相关文档(正样本)集合,而  表示不相关文档(负样本)集合。

附录 A 中展示了代表性的数据集示例。

数据合成

采用数据合成来构建各种子数据集 。具体来说,将 Qwen3 Embedding中引入的方法扩展到了多模态场景。如 图 4 所示,首先策划了一个多样化的种子多模态内容 (例如,来自 Web 的图像/视频)。然后,利用 Qwen3-VL-Instruct 生成:(1) 合成指令,(2) 合成查询,以及 (3) 伪相关性标签

具体过程如下:

  1. 种子内容策划:从公开数据集和网络抓取中收集了大量的图像和视频,经过重复数据删除和安全过滤,形成了种子语料库 
  2. 指令生成:对于  中的每个项目,我们提示 Qwen3-VL-Instruct 生成描述潜在检索任务的指令 。例如,"为这个图像生成一个搜索查询"或"描述一个与此视频剪辑相匹配的用户查询"。
  3. 查询生成:基于指令和内容,模型生成相应的查询 。为了增加多样性,我们提示模型生成不同粒度(例如,粗粒度的类别与细粒度的描述)和不同模态(例如,文本查询、相关图像查询)的查询。
  4. 伪标签生成:最初生成的查询与种子内容配对作为正样本,形成 。为了进一步细化这些标签,使用在初步数据上训练的早期 Embedding 模型版本执行检索,并应用下一节中描述的过滤技术。

这种合成方法使我们能够创建大规模、多样化且任务特定的训练数据,解决了自然发生的多模态检索数据稀缺的问题。

正样本优化与困难负样本挖掘

困难负样本在对比表示学习中起着至关重要的作用。为了提高正样本对的质量并识别有效的困难负样本,实施了一个自动化的两阶段挖掘流水线:召回 (Recall) 和相关性过滤 (Relevance Filtering)。

  • 召回 (Recall) :对于每个子数据集 ,使用一个 Embedding 模型提取所有查询  和文档  的表示。对于每个查询 ,我们基于余弦相似度检索出 Top-K 最相关的候选文档 ,其相关性分数记为 

  • 相关性过滤 (Relevance Filtering) :最后,基于相关性分数  优化相关性标签  以消除噪声:

    • 正样本优化 (Positive Refinement) :仅当至少有一个正文档  的得分  时才保留查询 ,其中  是作为分数阈值的超参数。如果没有这样的候选文档存在,则丢弃查询 
    • 困难负样本选择 (Hard Negative Selection) :对于一个有效的查询 ,我们计算其优化后的正样本的平均得分 。任何非正文档  仅当其得分满足  时才被选为困难负样本,其中  是一个小的安全边际,用于防止包含"假阴性"样本。

训练策略

为了训练我们的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker,采用了多阶段训练流水线,如图 5 所示。这种方法旨在减轻大量弱监督数据与稀缺高质量样本之间的数据不平衡。模型首先在大量弱监督、嘈杂的数据上进行预训练,以建立相关性理解的基线并提升泛化能力。然后,我们在高质量、特定任务的数据集上进行微调,引导模型进行更精确的相关性评分和细粒度交互。除了上述原因外,多阶段训练策略的另一个目标是引导提升数据质量和模型性能。随着训练通过连续阶段进行,模型的能力不断增强。这种改进反过来促进了更有效的数据挖掘,从而优化了训练数据的质量。这种迭代循环最终导致模型整体性能的大幅提升。

图片

多阶段训练

实施了如下的三阶段训练策略:

阶段 1:对比预训练 (Stage 1: Contrastive Pre-training)为了对齐多模态表示空间并增强对各种模态、任务和领域的世界知识理解,首先在 Qwen3-VL-Instruct 模型上进行对比预训练。在此阶段,利用了 3 亿个使用第 3 章中描述的合成流水线生成的合成多模态对。这些数据包含了广泛的领域和任务,为稳健的表示学习提供了基础。由此产生的模型记为 Qwen3-VL-Embedding: s0

阶段 2:多任务对比学习 (Stage 2: Multi-task Contrastive Learning)在此阶段,我们在包含 4000 万个样本的高质量数据集上微调 s0 模型。该数据集是通过利用 s0 模型的检索能力,从合成池以及公开和专有数据源中挖掘得到的。此阶段不仅通过更高质量的数据细化了 Embedding 模型,还利用特定的检索数据子集训练了 Qwen3-VL-Reranker。由此产生的 Embedding 模型记为 Qwen3-VL-Embedding: s1

阶段 3:蒸馏与模型合并 (Stage 3: Distillation and Model Merging)为了进一步提升检索性能,我们利用 Qwen3-VL-Reranker 模型的评分能力,将其知识蒸馏到 Embedding 模型中。我们使用 s1 模型挖掘了 400 万个困难负样本,创建了一个专注于具有挑战性区分的训练集。这一过程产生了 Qwen3-VL-Embedding: s2。最后,为了保持通用能力并在广泛的任务中保持平衡的性能,我们将 s2 模型的权重与 s1 模型合并,得到最终模型 Qwen3-VL-Embedding: s3

实现细节

基础模型Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列基于 Qwen3-VL-Instruct 模型 (Qwen Team, 2024) 构建,利用了其强大的多模态理解和推理能力。

训练配置所有模型均使用 AdamW 优化器进行训练。对于 Qwen3-VL-Embedding 系列,将最大学习率设置为 。对于 Qwen3-VL-Reranker 系列,最大学习率为 。为了提高训练效率,我们采用了 LoRA 微调并启用了 Flash Attention。

输入配置模型支持的最大上下文长度为 32k tokens。图像输入被调整大小以保持其原始纵横比,最长边限制为 1280 像素。对于视频输入,我们每秒采样一帧,最大帧数限制为 64。

训练目标

下面详细介绍了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型的训练目标。

Embedding 模型的损失函数

Embedding 模型的训练采用了多任务学习目标,结合了 InfoNCE 损失、CoSent 损失、MRL 损失、二值量化损失以及蒸馏损失。

检索任务 (Retrieval Tasks)对于检索任务,我们采用 InfoNCE 损失。对于批次  中的查询 、其正文档  和负文档集合 ,损失定义为:

其中  表示余弦相似度, 是温度超参数。我们在批次内使用负样本,并辅以从第 3.3 节所述挖掘出的困难负样本。

语义文本相似度 (STS) 任务 (Semantic Textual Similarity Tasks)对于 STS 任务,为了利用细粒度的相似度分数,使用 CoSent 损失:

其中  和  分别表示正样本对和负样本对的集合, 是缩放因子。

分类任务 (Classification Tasks)对于分类任务,我们将标签描述视为查询,将输入(图像/视频)视为文档。损失类似于 ,但在构建负样本时,我们仅包括来自不同类别的样本,并排除同一类别的任何样本以避免假阴性。

知识蒸馏 (Knowledge Distillation)在第 3 阶段,我们应用知识蒸馏,使 Embedding 模型的分数分布与 Reranker 教师模型的分数分布对齐。对于查询  和一组候选文档 ,蒸馏损失为:

其中  和  分别是教师和学生模型在  上的 softmax 归一化得分分布。

俄罗斯套娃表示学习 (Matryoshka Representation Learning, MRL)为了支持灵活的嵌入维度,采用了 MRL。对于一组嵌套维度 ,总损失为:

其中  表示截断到前  维的嵌入, 是权重系数。

量化感知训练 (Quantization-Aware Training)为了确保二进制量化后的高性能,我们在训练期间加入量化损失。如 (Zhang et al., 2025c) 建议,不对嵌入本身进行二值化,而是通过伪量化正则化项来促进二值化友好性:

其中  是嵌入向量,sg 表示停止梯度 (stop-gradient) 操作。这鼓励嵌入向量靠近超立方体的顶点。

Reranker 模型的损失函数

我们将重排序构建为一个二分类问题:给定一个查询-文档对,模型预测一个特殊的 yes 标记(相关)或 no 标记(不相关)。

其中  表示 VLM 分配的概率。对于正样本对,标签  为 "yes",对于负样本对则为 "no"。该损失函数鼓励模型为正确的标签分配更高的概率,从而提高排序性能 (Dai et al., 2025)。

在推理过程中,最终的相关性分数是通过对 yes 和 no 标记的 logits 之差应用 sigmoid 函数计算得出的:

评估结果

图片
图片
  • MMEB-V2 基准测试 :Qwen3-VL-Embedding-8B 取得了 77.8 的总分,在图像、视频、视觉文档等所有子任务中均表现优异,超越了 VLM2Vec、GME 以及闭源模型(如 Google Gemini Embedding, OpenAI text-embedding-3-large)。
  • 视觉文档检索 (Visual Document Retrieval) :在 VisRAG、ViDoRe 等多个基准上,Qwen3-VL-Embedding 和 Reranker 系列模型展现了统治级的性能,优于 ColPali 和 ColQwen2 等模型。
  • 纯文本基准 (Text Benchmarks) :虽然是多模态模型,但在 MMTEB 纯文本榜单上,Qwen3-VL-Embedding-8B 达到了 67.9 的均分,与同等规模的纯文本 Embedding 模型能力相当。
  • Reranking 性能 :Qwen3-VL-Reranker-8B 在绝大多数重排序任务中显著优于基线模型,相比 2B 版本有大幅提升。

消融实验

图片
  • MRL 与量化:实验表明,随着维度降低,性能会有所下降,但在合理范围内(如 1024 降至 512)性能损失微小(约 1.4%),却能带来 50% 的存储节省。Int8 量化几乎不损失精度,而二进制量化在低维时会有较明显的性能下降。
  • 时空粒度影响:增加图像的 Token 数和视频的帧数能提升性能,但存在边际效应递减,过长的上下文甚至可能导致轻微的性能回退。
  • 多阶段训练效果:消融研究显示,从 S0 到 S1(多任务微调)提升显著;S2(蒸馏)大幅提升了检索任务性能但牺牲了部分分类能力;最终的 S3(合并)成功平衡了各项能力,实现了最佳的综合性能。
图片
图片

结论

本报告介绍了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker,这是面向多模态检索的SOTA模型系列。通过将多阶段训练流水线与高质量多模态数据相结合,并最大程度地利用 Qwen3-VL 基础模型的多模态知识和通用理解能力,Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列在广泛的多模态检索基准测试中实现了前所未有的性能,同时保持了强大的纯文本能力。

此外,通过引入俄罗斯套娃表示学习(Matryoshka Representation Learning)和量化感知训练(Quantization-Aware Training),Qwen3-VL-Embedding 系列具备了卓越的实际部署特性,在保持卓越性能的同时显著降低了下游任务的计算成本。展望未来,有前景的研究方向包括扩展对更多模态的支持、开发更高效的训练范式、增强组合推理能力以及建立更全面的评估协议。本工作相信这些模型代表了多模态检索技术的重大进步,并希望它们能推动这一快速发展领域的进一步创新。

参考文献

[1] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

DeepSeek V4春节突袭!编程能力碾压Claude,全球代码圈要变天?

编程之神,即将易主。 编程之神,即将易主。 大家好,我是指挥官,专注用AI工具提高工作效率,欢迎关注公众号,有福利给到大家。 DeepSeek又要搞事情了!就在大家准备过春节的时候,外媒Information爆出猛料:DeepSeek V4将在2月中旬(春节前后)正式发布。 ...