2026年3月27日星期五

谷歌TurboQuant算法发布,内存价格应声跳水

谷歌新发布的TurboQuant压缩算法将KV Cache压缩至3bit且精度零损失,在H100显卡上速度提升8倍。该技术引发内存市场动荡,内存价格大幅下跌,目前DDR5内存已跌破3000元。普通装机用户建议暂缓购买,等待价格进一步回落;本地AI玩家则将迎来更低门槛。

Tags:

几天前,我注意到谷歌悄悄发了一篇论文,当时没有立即写,因为我更想等一件事发生。

果不其然,这才过了两天,居高不下的内存价格终于出现跳水,内存厂商的天终于塌了!!!

图片
图片

截止今天早上,美光科技(MU)西数(WDC)希捷(STX)闪迪(SNDK)还在跌!

这下存储厂商坐不住了,黄牛更坐不住了!

图片
图片

该说不说,谷歌立了大功一件!必须赏半斤地瓜烧!

图片

那具体是怎么个事呢?

前几天3月25号,谷歌不声不响地突然发布了一个新压缩算法TurboQuant(给AI运行时的工作内存做压缩优化)。

图片

两天时间过去,内存厂商的美股价格纷纷滑跪,而那帮内存黄牛,原本还在跟装机佬耗着。

你不买,我不降,看谁耗得过谁。

谁能想到,谷歌竟不声不响地悄悄摸到背后,对着黄牛的后心窝猛踹几脚。

图片
图片

我直接笑死。

所以今天我们来看一看,谷歌 TurboQuant 它到底做了什么?

图片

TurboQuant压缩算法

谷歌这次发布的新压缩算法是什么?就不得不先讲一下概念。

图片

KV Cache,全称 Key-Value Cache(键值缓存,AI 运行时存放"临时记忆"的地方)。

它是 Transformer 模型中注意力机制的缓存优化策略,说白了就是帮助 AI 避免重复计算。

如果没有 KV Cache,AI 每次生成新token时,计算量就会变得极为庞大。

简单来个比喻,KV Cache你可以简单理解为大雄(AI)的记忆面包。

图片

AI一开始把你们的对话吃进去,到后面回答时就能库库往外产,不用每次都从头想重新再算。

但问题就在这里,对话越长,AI吃进去的越多,这块记忆面包(KV Cache)就越厚。

具体为什么会变厚呢?还是拿面包来举例,面包作为一个长方体,他有长宽高。

图片

你说的话越多,上下文的长度就越大,面包它就越长。

而数据精度,就是每个数字得存多少位小数,那它的宽也会发生改变。

而面包的高,则是大模型的参数规模,这个基本固定。

所以三个维度,两个方向都往外涨,我们的内存就这么爆掉了。

那之前业界是怎么做的?

图片

主要有三种办法:

第一种是滑动窗口注意力,也就是只保留最近N个Token的KV Cache,只记对话最近的,忘掉前面老的。

第二种则是线性注意力,也就是将所有历史记录压缩为固定大小的隐状态,近似计算压缩,但精度大幅下降。

第三种就是我们的KV Cache量化,在有限的范围里压缩bit宽度,以此来减小面包的体积。

但这三条路都有代价,业界卷了很久都没能找到完美解。

直到这篇论文出来,谷歌用了两个自研新算法,PolarQuant + QJL,合成出了TurboQuant。

图片

它第一次在业界做到了,将KV Cache量化到3bit,同时让数据实现零精度的损失。

图片

goo.gle/4bsq2qI

说实话我第一次看到这个结论时,以为是处理的计算量变少了,所以处理的速度快了。

但其实并不是,这里要说一个很反直觉的点:

过去显卡计算数据之前,必须先把数据从显存搬到计算单元上,也就是从HBM(高带宽内存)搬到GPU里的高速缓存SRAM上处理。

但谷歌这次是把KV Cache 从 16bit 压到 3bit,让数据的体积直接缩小到原来的六分之一。

所以显卡原本要搬的砖直接小了五倍,那速度自然得飞起来。

而且这一次,谷歌甚至在 Llama-3.1-8B-Instruct 主流开源模型做了完整测试。

图片
图片

不光跑了业界标准的长文本评测集,在英伟达 H100 显卡上,其处理速度更是快了 8 倍!

图片

另外,在超大规模长文本测试里,测试准确率居然满分,真正实现了精度零损失。

所以,这回谷歌真不是在吹牛逼,直接给你玩真的。

图片
图片

倒狗计划破产

回头来看,这波内存涨价的源头其实正是AI。

自从23年开始,AI大模型、智算中心全面铺开。

三星、SK海力士、美光,存储三巨头超过70%的先进制程产能,全部转向高利润的HBM内存生产。

图片

美光更是早在三个多月前宣布关闭消费级内存生产线,全力生产HBM。

图片

货少了,价格自然就上去,这是正常的市场逻辑。

但这帮黄牛发现了这个窗口期,故意加剧了这波节奏。

图片
图片

当年 2000 块不到两条 32G DDR5 6400,被硬生生被炒到了 8000 多块。

而且这波不光是内存涨价,硬盘也直接跟过来凑热闹,什么猪肉涨价带着菜价一起涨?

图片
图片

回头再看现在内存已跌破3000大关,谷歌直接掀桌子,麻烦各位内存厂商和黄牛们把鼻子带好。

图片

但话也不能说的太绝对。

毕竟内存越便宜,未来AI没准会变得越来越多,需求反而可能会再涨上去。

但至少现阶段,市面上那些被故意囤积的内存,恐怕价格还会再降。

至少短期内可以确定,这轮黄牛的好日子,基本算是到头了。

图片

絮叨

如果你是普通装机佬,

那这两天内存的价格跌幅还不算大,先不要幻想明天就回到500块时代。

建议可以再等一等,让子弹再飞一会儿。

图片

毕竟已经等了这么久了,也不差这两天。

只要TurboQuant的集成进展顺利,内存价格降温一定是大概率事件。

如果你是在跑本地部署AI的玩家,那这次或许真的算大好消息。

过去跑本地,那得先看看实力。

64G内存有没有四条插满?是不是高频?显卡用的是不是50系?

谁有钱谁玩,没钱靠边站。

图片

而现在,16G装机就能本地跑百亿参数AI的时代,说不定真的不远了。

图片

该说不说,你谷哥确实是有点实力在的。

比起整天在那里卷模型参数,把AI的最低配置门槛打下来,才是真正面向所有人的事。

前有deepseek,后有谷歌,看来只有把算法做到极致才是AI时代的正解啊。

如果这篇文章对你有所启发,欢迎点赞、在看,转发三连。星标⭐账号,还可以第一时间收到推送,感谢你的收看,我们下期再见~

图片·················END·················

没有评论:

发表评论

开源低代码平台Deep GCC Lowcode:企业级免费商用,快速开发应用

Deep GCC Lowcode是一款企业级开源低代码平台,提供可视化表单设计、流程引擎、自动代码生成等功能,支持前后端分离和多数据库。完全免费商用,可降低70%开发成本,将交付周期从月缩短至周,适合中小企业快速构建内部管理系统并实现自主可控。 Tags: 低代码平台 ...