AI I024: DeepSeek V4模型深度解析：参数架构升级、价格减半、原生多模态与硬件策略转变

本文基于网络泄露信息，解析DeepSeek V4大模型的潜在更新，包括总参数量接近1万亿但激活参数减少的工程突破、新增Engram条件记忆等架构组件、原生1M上下文窗口、可能的多模态能力以及价格相比竞品大幅降低（输入价格砍半）。同时探讨其跳过英伟达优化、转向国内芯片厂商适配的硬件策略转变及其产业意义。信息仅供参考，最终以官方发布为准。

Tags:

DeepSeek V4

AI大模型

模型架构

价格对比

硬件适配

4号，我特意蹲在电脑前，等DeepSeek V4的更新消息。

等了一个下午。

不出所料的，它又双叒跳票了。

说实话，到这个节点，我已经完全不意外了。

这大概是最近半个月里，V4 第 N 次放我鸽子，

年前说是过年期间发布，后面又改成年后，再往后又变成 3 月上旬。

不过经历了这几次跳票，我反而越来越确信一件事，

deepseek 是真的在憋大招。

而且这个大招，时间节点卡得相当微妙。

没准...，5号两会?

但关键模型还没更新，路透社先按捺不住了。

2 月 26 日，路透社发了一条独家新闻：

DeepSeek 即将发布的 V4 旗舰模型，在上线之前，压根没让英伟达（NVIDIA）和AMD做软件优化对接。

这个行业有惯例，我简单说一下：

AI 大模型发布前，通常要提前给英伟达这样的芯片厂商共享预发布版本，让他们把软件在自家硬件上跑通顺，这样模型上线之后才不会打架。

这是所有大厂默认遵守的流程，DeepSeek 自己以前也这么干过，之前跟英伟达的技术团队还合作挺密切的。

但这次，没有。

不是忘了，是主动跳过。

取而代之的，是给包括华为在内的国内芯片厂商提前几周的访问权限，让他们先优化。

英伟达和 AMD 的反应：拒绝置评。

DeepSeek 和华为的反应：保持沉默。

四家公司，四个沉默。

我只能用两个字形容，难绷。

因为，此前网上一直流传着一个传言：

DeepSeek V4 的训练，用的是那些通过不可描述的渠道得来的英伟达 Blackwell芯片（注：英伟达目前最顶级的 AI 芯片架构，受美国出口管制，中国企业无法正规购入）。

路透社的消息里，特朗普政府一位高级官员也直接对外说：

DeepSeek 的最新模型 V4，是在中国大陆境内的 Blackwell 集群上训练的，涉嫌违反美国出口管制规定。

当然老黄（英伟达CEO）急没急哭，这个我不知道。

但作为战斗力计量单位的OpenAI，这次怕是真急哭了。

因为在这个节骨眼上，OpenAI 向美国国会提交了一份正式指控，

指控DeepSeek 通过窃取 GPT 系列模型的输出数据，拿来训练 V4。

翻译成人话就是，你 V4 牛什么，你是蒸我的模型！

这就是开头发生的事。

一个还没正式亮相的模型，在正式上线前，就已经搅动了芯片战争，出口管制，技术蒸馏，地缘博弈这四盘大棋。

V4 还没出现，故事就已经够精彩了。

那它到底更新了什么，又会带来什么变化？

这篇文章会根据网上已有搜集到的信息，从夯到拉对比 V4 的模型能力。

PS：以下所有内容均来自泄露/爆料，未经官方确认，仅供参考

一、总参数量的升级

先说数字：

V3/V3.2的总参数是 671B 到 685B，V4 泄露出来的数字是接近 1 万亿，也就是 1 T。

参数翻了快 1.5 倍。

你可能会想，这有什么了不起的，不就是堆参数吗？

但这里有一个特别关键的细节，也是我觉得 V4 在架构上真正牛逼的地方：

V4每次推理时激活的参数，反而比V3少了5B；

V3每次推理激活约37B参数，V4只激活约32B；

模型更大了，但每次 AI 动脑的开销反而降了。

说人话就是，V4 不是靠把自己喂得更胖来变聪明的，而是靠让自己的脑子分工更精细，用起来更省力来达到更强。

举个栗子，一个人从 80 公斤练到 110 公斤，但跑步的体力消耗反而下降。

不仅是堆料，这是真正的工程突破。

大而不胖，可以给到夯。

二、全新架构组件

这一条是整个 V4 更新里技术含量最高的部分，其中我最想单独拎出来说三点，

首先第一个，Engram Conditional Memory（恩格拉姆条件记忆）。

https://github.com/deepseek-ai/Engram

先说为什么叫这个名字。

Engram这个词来自神经科学，指的是记忆在大脑里的物理痕迹，

就是那些记住了的东西在大脑神经网络里留下的物质结构。

借来用在 AI 上，意思很直接，就是让模型真的记住东西，而不是每次都重新推理。

具体怎么实现？

用O(1)哈希查找（注：哈希查找是一种极快的数据检索方式）直接从内存里调取静态知识。

Needle-in-a-Haystack 测试（就是在超长文本里找特定信息的能力）准确率97%，而标准架构只有84.2%。

这个差距有多大？

你可以理解成，标准架构在处理超长上下文的时候，大概每100次里有将近16次会忘记关键信息。

Engram 架构把这个失误率直接压到了3%以内，也就是3次。

说实话，这解决的是大语言模型一个老生常谈的痛点，

就是在一个很长的对话里，跟AI说了某件事，结果聊到后面 AI 好像忘了？

不是它变笨了，是它的短期记忆被塞满，把你之前说的话给压缩掉了。

Engram Memory，就是在正面硬刚这个问题。

第二个是mHC（流形约束超连接）。

https://arxiv.org/abs/2512.24880

这个就不用说那么细了，主要是解决万亿参数规模下的训练稳定性问题的。

简单来讲，模型参数越多，训练起来越容易不稳定，简单来说，一栋楼越高，那它必然越容易晃。

mHC则是给这栋楼加的减震结构。

第三个，DSA Lightning Indexer（闪电索引器）。

基于 v3.2 的 DeepSeek 稀疏关注，这个跟上下文窗口直接挂钩，放到下一条一起说，

但核心数字是 1M token 的处理计算量，减少了约 50%。

我的评价是，Engram Memory 这个东西，我觉得单独都可以给夯。

它解决的不是一个新问题，而是一个业界已经默认暂时没有完美解法的老问题。

三个组件一起，整体先给个顶级。

另外打假插播一条，X上有人在流传"83.7% SWE-bench"的截图，说是V4的跑分。

已经被 Epoch AI 和 MasterCui 确认消息来源不明，没有官方实锤。

我说这件事，不是要给 DeepSeek 泼冷水。

而是想说，一个模型的真实成色，等官方数据出来了，自有盖棺定论。

三、上下文窗口

V4 的上下文窗口是 1M Token

（注：Token 是大模型处理文本的基本单位，中文大概1个字≈1.5个Token，1M Token大约能装下一本 60 ～ 70 万字的长篇小说）。

你可能会说，这没什么稀奇的，V3.2 不是也支持 1M 了吗？

对，但这里有一个容易被忽略的区别。

V3.2 的 1M 是后来扩的，原版是 128K，后期找补才添上去的。

V4 的 1M 是原生设计，从架构设计的第一天起就是为 1M 服务的。

这两者的差距，打个比方，

你把一辆按照60码设计的车，硬改成能跑120码，跟你一开始就按照120码设计一辆车，哪个跑起来更稳？

结合上一条提到的DSA Lightning Indexer，V4处理1M token的计算量直接砍了一半。

更长，更稳，还更省。

给个顶级真不过分！

这里，我忍不住要说一件很有意思的事。

GPT系列现在的上下文窗口大概是400K，差不多是V4的一半不到。

所以真不能怪OpenAI最近一直在忙着到处指控别人。🤣

四、多模态

V4泄露出来的能力里，有一条是原生多模态.

即文本、图片、视频、音频，输入输出全支持。

如果是真的，那这就不只是一个大语言模型了，而是一个完整的创作平台。

但这里有一个关键的Open Question，目前还没有明确答案：

V4到底是能生成图片和视频，还是只是能理解图片和视频？

这两件事，差距不是一点点。

理解图片，现在大部分主流模型都能做，这是输入侧的多模态。

生成图片和视频，才是真正的多模态输出，门槛要高得多。

如果V4只是能看图，不能生图，那这个原生多模态的标签，

说难听点，就是在蹭热度，给用户画了一个不存在的大饼。

当然，就算V4能生图，对标的竞争对手也不少，

OpenAI的DALL-E和Sora，不管是文生图还是文生视频，都是业内的前列水平。

然后是前一阵发布的Seedance2.0，当然是没降智版，也是很强的对手。

说实话，DeepSeek如果要在视频生成这件事上正面PK，还是有一定压力的。

所以，等V4正式版出来，看到实际效果之后，再回来评价。

是夯是拉，得看官方的答案。

五、价格

价格直接砍半，对标竞品极其凶残。

先让数字说话，然后我来说感想。

泄露出来的V4价格：输入约 0.14/MToken，输出约 0.28/M Token。

再看一眼Claude Opus 4.6：输入 5.00/MToken，输出 25.00/M Token。

你自己算一下。

输入，V4比Claude便宜36倍。

输出，V4比Claude便宜89倍。

我说这是掀桌子，一点都不夸张。

当别家还在把每一个Token当黄金搁那儿论克卖的时，DeepSeek又把token打成了白菜价。

而且这还不是第一次了,

V3出来的时候，就已经把竞品的价格杀了个措手不及。

V4，直接在V3的基础上，输入价格再砍一半。

我真的会想，DeepSeek的定价部门开会的时候，PPT的第一页是不是写着。

我们的使命，是先让竞争对手怀疑人生。

89倍的价差，这个数字。

我觉得是V4目前泄露出来的所有信息里，直接可以拿来当金字招牌的！

不管架构有多厉害，论文写得多漂亮，用户最终打开账单的时候，感受最直接的永远是这串数字。

夯，而且是顶格的那种夯。

全体起立的夯！

六、V4 Lite轻量版

V4有一个轻量版，代号 sealion-lite。

参数量约200B，目前至少有一家推理供应商正在NDA保密协议下进行测试。

你可能觉得，都出了万亿参数的旗舰版了，这个Lite版有什么好聊的？

先说核心数字：

200B的参数规模，原生支持1M Token上下文窗口。

记一下这两个数字，然后横向对比一下。

很多比V4 Lite体量大得多的模型，都还没能做到原生1M上下文。（gpt别对号入座啊）

当然，200B能跑原生1M，这在工程上不是小事。

不过，Lite版相比旗舰版也有明显的取舍，

也就是Engram Memory没有集成。

但根据网上消息，Lite版可能不带V4版提到的记忆索引架构。

所以在超长上下文的精准检索能力上，会弱于旗舰版，这个差距是真实存在的。

但除了这一点，其他核心能力应该基本都在：

原生多模态，原生1M上下文，架构上的优化基本也带上了。

注意，这是Lite版，不是旗舰版。

我为什么觉得这个值得单独聊？

因为旗舰版很可能是一个天花板标志，因为Lite版才是真正会被大量企业实际部署的东西。

企业选模型，不只看谁更强，还要算成本，算推理速度，算部署难度。

200B的体量，对于大多数企业来说，比1T要划算得多。

给你1M原生上下文，多模态，价格还打骨折。

这对于需要处理长文档、多轮对话、跨模态任务的企业用户来说，是实打实的利好。

七、跳票

这一条单独拎出来，

是因为我发现DeepSeek跳票，竟然是传统艺能。

我给你捋一下，

R1，原计划2024年底，实际1月20日上线，延迟4到8周。

R2，干脆直接取消了，悄悄变成了R1的一次更新推送。

V3.1，原计划2025年初夏，实际8月才出来，延迟了好几个月。

V3.2，原计划秋天，12月1日才落地。

然后是V4，原计划2月17日左右，现在大概率是3月4日到6日之间。

延迟时间：约两周。

当然，这或许是DeepSeek近一年多来，跳票时长最短的一次。

你可以理解成，这次憋的时间短，

说明东西快做好了，不是烂尾，可能是最后的打磨。

从这个角度看，两周的跳票，反而是一个比较乐观的信号。

八、硬件策略

这一条，我要多说几句。

因为它不只是一个技术更新点。

开头我们讲，路透社爆出来，V4没有按照行业惯例提前给英伟达和AMD做优化对接。

而是要把提前几周的访问窗口，给了华为和寒武纪。

英伟达拒绝置评，AMD拒绝置评，DeepSeek沉默，华为沉默。

四家全哑。

但为什么这点值得路透社单拿出来讲？

在大模型发布之前，又为什么要提前给英伟达测试？

因为你的模型得在用户的机器上跑起来。

而国内用户的机器大概率装的是英伟达的显卡，如果你发布之前没有做好硬件适配，用户跑起来就会出问题。

效率低速度慢，以及各种奇形怪状的bug。

这是整个AI行业的默认流程，大家都这么干，DeepSeek以前也这么干，而且以前跟英伟达的技术团队关系还挺铁。

但V4，不干了。

不给英伟达，不给AMD。

给华为昇腾，给寒武纪。

这意味着V4在发布初期，英伟达GPU上的运行效果，很可能是不理想的。

但注意，这个不理想不是模型本身的问题，是适配没做好的问题。

而是对于国内的很多开源用户来说，如果你是用英伟达显卡跑本地模型的，V4刚发布的时候，可能体验会差一点。

这是DeepSeek主动选择的结果，不是意外，是代价。

但他们或许愿意付这个代价。

但想想更深的一层。

过去，整个AI行业的逻辑是。

你的模型，得先适配我的芯片，你才能被广泛使用。

芯片厂商是规则制定者，模型是被适配的那一方。

英伟达就是在这个逻辑里，常年坐在AI产业链顶端的。

但现在，DeepSeek在HuggingFace上的累计下载量已经超过了7500万次。

用的人足够多了。

足够多到什么程度？

足够多到可以反过来跟硬件厂商说，

"麻烦你来适配我。"

这句话，听起来很硬气，但绝不是吹牛，是真实的产业话语权在重新分配。

过去是模型得跑在芯片上，现在是芯片得跑得动模型。

而且，这件事还有一个时间节点不得不提。

V4即将发布，很可能正值中国两会期间。

我说这个，各位都可以想想这个时机意味着什么。

不只是一次产品发布，更像是一种公开的技术表态。

中国的AI基础设施，打算在不依赖西方硬件验证的情况下运行。

这将直接检验一件事，出口管制，知识产权保护，硬件优势，这些被用来限制中国AI发展的牌，到底还剩多少效力？

结合之前特朗普政府官员对路透社说的那句话，DeepSeek 是用不可描述的渠道得来的 Blackwell 芯片。

或许 DeepSeek 的下一个动作是，把推理优化全给了华为，或许还会公开声称我用华为……

这下是真的遥遥领先了🤣

话说，你觉得这些未经官方认证的爆料，几分真几分假呢？

如果这篇文章对你有所启发，欢迎点赞、在看，转发三连。星标⭐账号，还可以第一时间收到推送，感谢你的收看，我看下期再见～

·················END·················

AI I024

2026年3月5日星期四

DeepSeek V4模型深度解析：参数架构升级、价格减半、原生多模态与硬件策略转变

Tags:

DeepSeek V4

AI大模型

模型架构

价格对比

硬件适配

一、总参数量的升级

二、全新架构组件

三、上下文窗口

四、多模态

五、价格

六、V4 Lite轻量版

七、跳票

八、硬件策略

没有评论:

发表评论

医疗视频理解大模型开源，6k+精标测试集与英雄榜上线

标签

2026年3月5日星期四

DeepSeek V4模型深度解析：参数架构升级、价格减半、原生多模态与硬件策略转变

Tags: DeepSeek V4 AI大模型 模型架构 价格对比 硬件适配

一、总参数量的升级

二、全新架构组件

三、上下文窗口

四、多模态

五、价格

六、V4 Lite轻量版

七、跳票

八、硬件策略

没有评论:

发表评论

医疗视频理解大模型开源，6k+精标测试集与英雄榜上线

Tags:

DeepSeek V4

AI大模型

模型架构

价格对比

硬件适配