2026年3月5日星期四

DeepSeek V4模型深度解析:参数架构升级、价格减半、原生多模态与硬件策略转变

本文基于网络泄露信息,解析DeepSeek V4大模型的潜在更新,包括总参数量接近1万亿但激活参数减少的工程突破、新增Engram条件记忆等架构组件、原生1M上下文窗口、可能的多模态能力以及价格相比竞品大幅降低(输入价格砍半)。同时探讨其跳过英伟达优化、转向国内芯片厂商适配的硬件策略转变及其产业意义。信息仅供参考,最终以官方发布为准。

Tags:

4号,我特意蹲在电脑前,等DeepSeek V4的更新消息。

等了一个下午。

不出所料的,它又双叒跳票了。

说实话,到这个节点,我已经完全不意外了。

这大概是最近半个月里,V4 第 N 次放我鸽子,

年前说是过年期间发布,后面又改成年后,再往后又变成 3 月上旬。

图片
图片

不过经历了这几次跳票,我反而越来越确信一件事,

deepseek 是真的在憋大招。

而且这个大招,时间节点卡得相当微妙。

没准...,5号两会?

但关键模型还没更新,路透社先按捺不住了。

2 月 26 日,路透社发了一条独家新闻:

图片

DeepSeek 即将发布的 V4 旗舰模型,在上线之前,压根没让英伟达(NVIDIA)和AMD做软件优化对接。

这个行业有惯例,我简单说一下:

图片

AI 大模型发布前,通常要提前给英伟达这样的芯片厂商共享预发布版本,让他们把软件在自家硬件上跑通顺,这样模型上线之后才不会打架。

这是所有大厂默认遵守的流程,DeepSeek 自己以前也这么干过,之前跟英伟达的技术团队还合作挺密切的。

但这次,没有。

不是忘了,是主动跳过。

取而代之的,是给包括华为在内的国内芯片厂商提前几周的访问权限,让他们先优化。

英伟达和 AMD 的反应:拒绝置评。

DeepSeek 和华为的反应:保持沉默。

四家公司,四个沉默。

我只能用两个字形容,难绷。

图片

因为,此前网上一直流传着一个传言:

DeepSeek V4 的训练,用的是那些通过不可描述的渠道得来的英伟达 Blackwell芯片(注:英伟达目前最顶级的 AI 芯片架构,受美国出口管制,中国企业无法正规购入)。

路透社的消息里,特朗普政府一位高级官员也直接对外说:

DeepSeek 的最新模型 V4,是在中国大陆境内的 Blackwell 集群上训练的,涉嫌违反美国出口管制规定。

当然老黄(英伟达CEO)急没急哭,这个我不知道。

但作为战斗力计量单位的OpenAI,这次怕是真急哭了。

图片

因为在这个节骨眼上,OpenAI 向美国国会提交了一份正式指控,

指控DeepSeek 通过窃取 GPT 系列模型的输出数据,拿来训练 V4。

图片

翻译成人话就是,你 V4 牛什么,你是蒸我的模型!

这就是开头发生的事。

一个还没正式亮相的模型,在正式上线前,就已经搅动了芯片战争,出口管制,技术蒸馏,地缘博弈这四盘大棋。

V4 还没出现,故事就已经够精彩了。

图片

那它到底更新了什么,又会带来什么变化?

这篇文章会根据网上已有搜集到的信息,从夯到拉对比 V4 的模型能力。

PS:以下所有内容均来自泄露/爆料,未经官方确认,仅供参考

一、总参数量的升级

图片

先说数字:

V3/V3.2的总参数是 671B 到 685B,V4 泄露出来的数字是接近 1 万亿,也就是 1 T。

参数翻了快 1.5 倍。

你可能会想,这有什么了不起的,不就是堆参数吗?

但这里有一个特别关键的细节,也是我觉得 V4 在架构上真正牛逼的地方:

V4每次推理时激活的参数,反而比V3少了5B;

V3每次推理激活约37B参数,V4只激活约32B;

模型更大了,但每次 AI 动脑的开销反而降了。

说人话就是,V4 不是靠把自己喂得更胖来变聪明的,而是靠让自己的脑子分工更精细,用起来更省力来达到更强。

图片

举个栗子,一个人从 80 公斤练到 110 公斤,但跑步的体力消耗反而下降。

图片

不仅是堆料,这是真正的工程突破。

大而不胖,可以给到夯。

二、全新架构组件

图片

这一条是整个 V4 更新里技术含量最高的部分,其中我最想单独拎出来说三点,

首先第一个,Engram Conditional Memory(恩格拉姆条件记忆)。

https://github.com/deepseek-ai/Engram

图片

先说为什么叫这个名字。

Engram这个词来自神经科学,指的是记忆在大脑里的物理痕迹,

就是那些记住了的东西在大脑神经网络里留下的物质结构。

借来用在 AI 上,意思很直接,就是让模型真的记住东西,而不是每次都重新推理。

具体怎么实现?

图片

用O(1)哈希查找(注:哈希查找是一种极快的数据检索方式)直接从内存里调取静态知识。

Needle-in-a-Haystack 测试(就是在超长文本里找特定信息的能力)准确率97%,而标准架构只有84.2%。

这个差距有多大?

你可以理解成,标准架构在处理超长上下文的时候,大概每100次里有将近16次会忘记关键信息。

Engram 架构把这个失误率直接压到了3%以内,也就是3次

说实话,这解决的是大语言模型一个老生常谈的痛点,

就是在一个很长的对话里,跟AI说了某件事,结果聊到后面 AI 好像忘了?

不是它变笨了,是它的短期记忆被塞满,把你之前说的话给压缩掉了。

Engram Memory,就是在正面硬刚这个问题。

第二个是mHC(流形约束超连接)。

https://arxiv.org/abs/2512.24880

这个就不用说那么细了,主要是解决万亿参数规模下的训练稳定性问题的。

简单来讲,模型参数越多,训练起来越容易不稳定,简单来说,一栋楼越高,那它必然越容易晃。

mHC则是给这栋楼加的减震结构。

第三个,DSA Lightning Indexer(闪电索引器)。

图片

基于 v3.2 的 DeepSeek 稀疏关注,这个跟上下文窗口直接挂钩,放到下一条一起说,

但核心数字是 1M token 的处理计算量,减少了约 50%。

我的评价是,Engram Memory 这个东西,我觉得单独都可以给夯。

它解决的不是一个新问题,而是一个业界已经默认暂时没有完美解法的老问题。

三个组件一起,整体先给个顶级。

图片

另外打假插播一条,X上有人在流传"83.7% SWE-bench"的截图,说是V4的跑分。

已经被 Epoch AI 和 MasterCui 确认消息来源不明,没有官方实锤。

图片

我说这件事,不是要给 DeepSeek 泼冷水。

而是想说,一个模型的真实成色,等官方数据出来了,自有盖棺定论。

三、上下文窗口

V4 的上下文窗口是 1M Token

(注:Token 是大模型处理文本的基本单位,中文大概1个字≈1.5个Token,1M Token大约能装下一本 60 ~ 70 万字的长篇小说)。

你可能会说,这没什么稀奇的,V3.2 不是也支持 1M 了吗?

对,但这里有一个容易被忽略的区别。

V3.2 的 1M 是后来扩的,原版是 128K,后期找补才添上去的。

V4 的 1M 是原生设计,从架构设计的第一天起就是为 1M 服务的。

这两者的差距,打个比方,

图片

你把一辆按照60码设计的车,硬改成能跑120码,跟你一开始就按照120码设计一辆车,哪个跑起来更稳?

结合上一条提到的DSA Lightning Indexer,V4处理1M token的计算量直接砍了一半。

更长,更稳,还更省。

给个顶级真不过分!

这里,我忍不住要说一件很有意思的事。

GPT系列现在的上下文窗口大概是400K,差不多是V4的一半不到。

所以真不能怪OpenAI最近一直在忙着到处指控别人。🤣

图片

四、多模态

V4泄露出来的能力里,有一条是原生多模态.

即文本、图片、视频、音频,输入输出全支持。

如果是真的,那这就不只是一个大语言模型了,而是一个完整的创作平台。

但这里有一个关键的Open Question,目前还没有明确答案:

V4到底是能生成图片和视频,还是只是能理解图片和视频?

图片

这两件事,差距不是一点点。

理解图片,现在大部分主流模型都能做,这是输入侧的多模态。

生成图片和视频,才是真正的多模态输出,门槛要高得多。

如果V4只是能看图,不能生图,那这个原生多模态的标签,

说难听点,就是在蹭热度,给用户画了一个不存在的大饼。

当然,就算V4能生图,对标的竞争对手也不少,

图片

OpenAI的DALL-E和Sora,不管是文生图还是文生视频,都是业内的前列水平。

然后是前一阵发布的Seedance2.0,当然是没降智版,也是很强的对手。

说实话,DeepSeek如果要在视频生成这件事上正面PK,还是有一定压力的。

所以,等V4正式版出来,看到实际效果之后,再回来评价。

是夯是拉,得看官方的答案。

五、价格

价格直接砍半,对标竞品极其凶残。

先让数字说话,然后我来说感想。

图片

泄露出来的V4价格:输入约 0.14/MToken,输出约 0.28/M Token。

再看一眼Claude Opus 4.6:输入 5.00/MToken,输出 25.00/M Token。

你自己算一下。

输入,V4比Claude便宜36倍。

输出,V4比Claude便宜89倍。

我说这是掀桌子,一点都不夸张。

图片

当别家还在把每一个Token当黄金搁那儿论克卖的时,DeepSeek又把token打成了白菜价。

而且这还不是第一次了,

V3出来的时候,就已经把竞品的价格杀了个措手不及。

V4,直接在V3的基础上,输入价格再砍一半。

我真的会想,DeepSeek的定价部门开会的时候,PPT的第一页是不是写着。

我们的使命,是先让竞争对手怀疑人生。

89倍的价差,这个数字。

我觉得是V4目前泄露出来的所有信息里,直接可以拿来当金字招牌的!

不管架构有多厉害,论文写得多漂亮,用户最终打开账单的时候,感受最直接的永远是这串数字。

夯,而且是顶格的那种夯。

全体起立的夯!

六、V4 Lite轻量版

V4有一个轻量版,代号 sealion-lite。

参数量约200B,目前至少有一家推理供应商正在NDA保密协议下进行测试。

你可能觉得,都出了万亿参数的旗舰版了,这个Lite版有什么好聊的?

先说核心数字:

图片

200B的参数规模,原生支持1M Token上下文窗口。

记一下这两个数字,然后横向对比一下。

很多比V4 Lite体量大得多的模型,都还没能做到原生1M上下文。(gpt别对号入座啊)

图片

当然,200B能跑原生1M,这在工程上不是小事。

不过,Lite版相比旗舰版也有明显的取舍,

也就是Engram Memory没有集成。

但根据网上消息,Lite版可能不带V4版提到的记忆索引架构。

所以在超长上下文的精准检索能力上,会弱于旗舰版,这个差距是真实存在的。

但除了这一点,其他核心能力应该基本都在:

原生多模态,原生1M上下文,架构上的优化基本也带上了。

注意,这是Lite版,不是旗舰版。

我为什么觉得这个值得单独聊?

因为旗舰版很可能是一个天花板标志,因为Lite版才是真正会被大量企业实际部署的东西。

企业选模型,不只看谁更强,还要算成本,算推理速度,算部署难度。

200B的体量,对于大多数企业来说,比1T要划算得多。

给你1M原生上下文,多模态,价格还打骨折。

这对于需要处理长文档、多轮对话、跨模态任务的企业用户来说,是实打实的利好。

图片

七、跳票

这一条单独拎出来,

是因为我发现DeepSeek跳票,竟然是传统艺能。

图片

我给你捋一下,

R1,原计划2024年底,实际1月20日上线,延迟4到8周。

R2,干脆直接取消了,悄悄变成了R1的一次更新推送。

V3.1,原计划2025年初夏,实际8月才出来,延迟了好几个月。

V3.2,原计划秋天,12月1日才落地。

然后是V4,原计划2月17日左右,现在大概率是3月4日到6日之间。

延迟时间:约两周。

当然,这或许是DeepSeek近一年多来,跳票时长最短的一次。

你可以理解成,这次憋的时间短,

说明东西快做好了,不是烂尾,可能是最后的打磨。

从这个角度看,两周的跳票,反而是一个比较乐观的信号。

八、硬件策略

这一条,我要多说几句。

因为它不只是一个技术更新点。

图片

开头我们讲,路透社爆出来,V4没有按照行业惯例提前给英伟达和AMD做优化对接。

而是要把提前几周的访问窗口,给了华为和寒武纪。

英伟达拒绝置评,AMD拒绝置评,DeepSeek沉默,华为沉默。

四家全哑。

但为什么这点值得路透社单拿出来讲?

在大模型发布之前,又为什么要提前给英伟达测试?

因为你的模型得在用户的机器上跑起来。

而国内用户的机器大概率装的是英伟达的显卡,如果你发布之前没有做好硬件适配,用户跑起来就会出问题。

效率低速度慢,以及各种奇形怪状的bug。

这是整个AI行业的默认流程,大家都这么干,DeepSeek以前也这么干,而且以前跟英伟达的技术团队关系还挺铁。

但V4,不干了。

不给英伟达,不给AMD。

给华为昇腾,给寒武纪。

这意味着V4在发布初期,英伟达GPU上的运行效果,很可能是不理想的。

但注意,这个不理想不是模型本身的问题,是适配没做好的问题。

而是对于国内的很多开源用户来说,如果你是用英伟达显卡跑本地模型的,V4刚发布的时候,可能体验会差一点。

这是DeepSeek主动选择的结果,不是意外,是代价。

但他们或许愿意付这个代价。

但想想更深的一层。

过去,整个AI行业的逻辑是。

你的模型,得先适配我的芯片,你才能被广泛使用。

芯片厂商是规则制定者,模型是被适配的那一方。

英伟达就是在这个逻辑里,常年坐在AI产业链顶端的。

但现在,DeepSeek在HuggingFace上的累计下载量已经超过了7500万次。

用的人足够多了。

足够多到什么程度?

足够多到可以反过来跟硬件厂商说,

"麻烦你来适配我。"

这句话,听起来很硬气,但绝不是吹牛,是真实的产业话语权在重新分配。

过去是模型得跑在芯片上,现在是芯片得跑得动模型。

而且,这件事还有一个时间节点不得不提。

V4即将发布,很可能正值中国两会期间。

我说这个,各位都可以想想这个时机意味着什么。

不只是一次产品发布,更像是一种公开的技术表态。

中国的AI基础设施,打算在不依赖西方硬件验证的情况下运行。

这将直接检验一件事,出口管制,知识产权保护,硬件优势,这些被用来限制中国AI发展的牌,到底还剩多少效力?

图片

结合之前特朗普政府官员对路透社说的那句话,DeepSeek 是用不可描述的渠道得来的 Blackwell 芯片。

或许 DeepSeek 的下一个动作是,把推理优化全给了华为,或许还会公开声称我用华为……

图片

这下是真的遥遥领先了🤣

话说,你觉得这些未经官方认证的爆料,几分真几分假呢?

如果这篇文章对你有所启发,欢迎点赞、在看,转发三连。星标⭐账号,还可以第一时间收到推送,感谢你的收看,我看下期再见~

图片·················END·················


没有评论:

发表评论

医疗视频理解大模型开源,6k+精标测试集与英雄榜上线

联影智能开源全球首个医疗视频理解大模型uAI Nexus MedVLM,支持单卡部署,覆盖内镜、腹腔镜等8个手术数据集。同步发布6245个视频-指令对测试集MedVidBench及公开英雄榜,性能超越GPT-5.4等通用模型。适合开发者、医疗AI研究人员参与评测与应用。 Tag...