谷歌新发布的TurboQuant压缩算法将KV Cache压缩至3bit且精度零损失,在H100显卡上速度提升8倍。该技术引发内存市场动荡,内存价格大幅下跌,目前DDR5内存已跌破3000元。普通装机用户建议暂缓购买,等待价格进一步回落;本地AI玩家则将迎来更低门槛。
Tags:
几天前,我注意到谷歌悄悄发了一篇论文,当时没有立即写,因为我更想等一件事发生。
果不其然,这才过了两天,居高不下的内存价格终于出现跳水,内存厂商的天终于塌了!!!
截止今天早上,美光科技(MU)西数(WDC)希捷(STX)闪迪(SNDK)还在跌!
这下存储厂商坐不住了,黄牛更坐不住了!
该说不说,谷歌立了大功一件!必须赏半斤地瓜烧!
那具体是怎么个事呢?
前几天3月25号,谷歌不声不响地突然发布了一个新压缩算法TurboQuant(给AI运行时的工作内存做压缩优化)。
两天时间过去,内存厂商的美股价格纷纷滑跪,而那帮内存黄牛,原本还在跟装机佬耗着。
你不买,我不降,看谁耗得过谁。
谁能想到,谷歌竟不声不响地悄悄摸到背后,对着黄牛的后心窝猛踹几脚。
我直接笑死。
所以今天我们来看一看,谷歌 TurboQuant 它到底做了什么?
TurboQuant压缩算法
谷歌这次发布的新压缩算法是什么?就不得不先讲一下概念。
KV Cache,全称 Key-Value Cache(键值缓存,AI 运行时存放"临时记忆"的地方)。
它是 Transformer 模型中注意力机制的缓存优化策略,说白了就是帮助 AI 避免重复计算。
如果没有 KV Cache,AI 每次生成新token时,计算量就会变得极为庞大。
简单来个比喻,KV Cache你可以简单理解为大雄(AI)的记忆面包。
AI一开始把你们的对话吃进去,到后面回答时就能库库往外产,不用每次都从头想重新再算。
但问题就在这里,对话越长,AI吃进去的越多,这块记忆面包(KV Cache)就越厚。
具体为什么会变厚呢?还是拿面包来举例,面包作为一个长方体,他有长宽高。
你说的话越多,上下文的长度就越大,面包它就越长。
而数据精度,就是每个数字得存多少位小数,那它的宽也会发生改变。
而面包的高,则是大模型的参数规模,这个基本固定。
所以三个维度,两个方向都往外涨,我们的内存就这么爆掉了。
那之前业界是怎么做的?
主要有三种办法:
第一种是滑动窗口注意力,也就是只保留最近N个Token的KV Cache,只记对话最近的,忘掉前面老的。
第二种则是线性注意力,也就是将所有历史记录压缩为固定大小的隐状态,近似计算压缩,但精度大幅下降。
第三种就是我们的KV Cache量化,在有限的范围里压缩bit宽度,以此来减小面包的体积。
但这三条路都有代价,业界卷了很久都没能找到完美解。
直到这篇论文出来,谷歌用了两个自研新算法,PolarQuant + QJL,合成出了TurboQuant。
它第一次在业界做到了,将KV Cache量化到3bit,同时让数据实现零精度的损失。
goo.gle/4bsq2qI
说实话我第一次看到这个结论时,以为是处理的计算量变少了,所以处理的速度快了。
但其实并不是,这里要说一个很反直觉的点:
过去显卡计算数据之前,必须先把数据从显存搬到计算单元上,也就是从HBM(高带宽内存)搬到GPU里的高速缓存SRAM上处理。
但谷歌这次是把KV Cache 从 16bit 压到 3bit,让数据的体积直接缩小到原来的六分之一。
所以显卡原本要搬的砖直接小了五倍,那速度自然得飞起来。
而且这一次,谷歌甚至在 Llama-3.1-8B-Instruct 主流开源模型做了完整测试。
不光跑了业界标准的长文本评测集,在英伟达 H100 显卡上,其处理速度更是快了 8 倍!
另外,在超大规模长文本测试里,测试准确率居然满分,真正实现了精度零损失。
所以,这回谷歌真不是在吹牛逼,直接给你玩真的。
倒狗计划破产
回头来看,这波内存涨价的源头其实正是AI。
自从23年开始,AI大模型、智算中心全面铺开。
三星、SK海力士、美光,存储三巨头超过70%的先进制程产能,全部转向高利润的HBM内存生产。
美光更是早在三个多月前宣布关闭消费级内存生产线,全力生产HBM。
货少了,价格自然就上去,这是正常的市场逻辑。
但这帮黄牛发现了这个窗口期,故意加剧了这波节奏。
当年 2000 块不到两条 32G DDR5 6400,被硬生生被炒到了 8000 多块。
而且这波不光是内存涨价,硬盘也直接跟过来凑热闹,什么猪肉涨价带着菜价一起涨?
回头再看现在内存已跌破3000大关,谷歌直接掀桌子,麻烦各位内存厂商和黄牛们把鼻子带好。
但话也不能说的太绝对。
毕竟内存越便宜,未来AI没准会变得越来越多,需求反而可能会再涨上去。
但至少现阶段,市面上那些被故意囤积的内存,恐怕价格还会再降。
至少短期内可以确定,这轮黄牛的好日子,基本算是到头了。
絮叨
如果你是普通装机佬,
那这两天内存的价格跌幅还不算大,先不要幻想明天就回到500块时代。
建议可以再等一等,让子弹再飞一会儿。
毕竟已经等了这么久了,也不差这两天。
只要TurboQuant的集成进展顺利,内存价格降温一定是大概率事件。
如果你是在跑本地部署AI的玩家,那这次或许真的算大好消息。
过去跑本地,那得先看看实力。
64G内存有没有四条插满?是不是高频?显卡用的是不是50系?
谁有钱谁玩,没钱靠边站。
而现在,16G装机就能本地跑百亿参数AI的时代,说不定真的不远了。
该说不说,你谷哥确实是有点实力在的。
比起整天在那里卷模型参数,把AI的最低配置门槛打下来,才是真正面向所有人的事。
前有deepseek,后有谷歌,看来只有把算法做到极致才是AI时代的正解啊。
如果这篇文章对你有所启发,欢迎点赞、在看,转发三连。星标⭐账号,还可以第一时间收到推送,感谢你的收看,我们下期再见~
没有评论:
发表评论