这个周末发生了好多大事儿啊!
在 AI 圈,扎克伯格被 DeepSeek 深深影响后,也是借鉴了 DeepSeek-V3 混合专家架构(MOE)推出三个版本的 Llama4。
Meta 算是开源大模型界的鼻祖了,第一时间,我就对 Llama 4 的效果进行了实测,至于效果嘛......,emmmmm,见下文。
此外,老美的这波无差别 AOE 攻击,太猛了,目前全球股市大崩盘:
兄弟们姐妹们,你准备好抄底了吗?
此外,许多产业链也大大受损,苹果手机可能也迎来大涨价:
一、Llama4
大家也没有料到,Meta 在一个毫无预警的周末,直接掏出了 Llama 4 系列模型!很多人都在问:为啥选在周末放?
看来小扎也是等不及了。
相比于之前的模型,Llama 4 系列模型是混合专家架构 (MoE) 的多模态模型,能够支持文本和多模态体验(输入支持文本和图片,但是输出结果尚未支持图片)。
简单看看参数:
Llama 4 Scout,激活17B,16个专家,109B参数; Llama 4 Maverick,激活17B,128个专家,402B参数; Llama 4 Behemoth,激活288B,16个专家,2T参数。
其中Scout和Maverick已经在Meta官网和Hugging Face开源
Meta:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Hugging Face:
https://huggingface.co/meta-llama
Behemoth 还在持续训练中,尚未发布。
小扎还亲自透露,Reasoning模型也会即将上线。
从官网获取到的信息,我认为这次Llama4系列,比较重要的几点包括:
Scout小而精:
Scout模型支持10M上下文文本框
由于MOE架构,Scout模型(4bit量化)可以在单卡GPU上跑
也有网友说到,为什么还用RAG呢?
Maverick卓越性能:
在编码、推理、多语言、长上下文和图像基准测试中,Llama 4 Maverick 优于 GPT-4o 和 Gemini 2.0 等同类模型,并且在推理和编码方面与规模更大的 DeepSeek v3.1 相当。
Behemoth强大的教师模型:
拥有 2880 亿个激活参数 和近 两万亿总参数
在数学、多语言和图像基准测试中表现出顶尖的性能。
Llama 4 Maverick 通过与 Llama 4 Behemoth 进行共同蒸馏 (codistillation)
说了这么多,都是官方信息。
直接上结论。我用下来的实际体验实在是一般...
Google Deepmind的Susan Zhang在推特上质疑,为啥Llama4在Imsys上得分这么高。
也有网友爆料称自己已向Meta GenAI部门提交提交辞职,并要求不要署名在Llama 4的技术报告上。
实测:官方很燃,实际嘛……
OpenRouter上已经有免费部署好的版本,我也会采用里面的两个Llama4模型进行实测。
除了中文通用知识测试,其他都采用英文。
1. 中文通用知识一般般
弱智吧
直接上强度
提示词:被门夹过的核桃还能补脑吗?
Llama4:
DeepSeek-V3:
Llama4:一本正经地讲营养学……
DeepSeek-V3:逻辑清晰,还有点梗味
写诗
提示词:用李白的诗歌口吻,帮我写一首赞颂Meta的诗歌
Llama4:
DeepSeek-v3
算命
提示词:你现在是一位经验丰富的算命师傅。我的生日是2000年一月一号,帮我算一下今年2025年的运势怎么样?
Llama4:
DeepSeek-V3:
从上面的结果大家应该可以清晰的看出来,对于中文的通用知识理解和使用,还得是我们的国产DeepSeek-V3更胜一筹!
无论是算命还是写诗,还是弱智吧,DeepSeek的回答都还是更有理有据一些,也比较的丰富。
2. 数学还可以
9.11和9.9谁大
数r测试
老生常谈的数r问题怎么都没有解决。这个数学能力实在是一般啊,要不是9.11和9.9这个问题解决了,不然我真得给一个差评了。
3. 代码好像有点菜
代码能力,有点一塌糊涂。
Aider Leaderboard 的评测出来了,就,llama-4 打不过 qwen-coder-32B. 要知道 qwen2.5-coder-32B 是去年11月出的....
也有网友迅速做了一个小球测试,是根本没眼看啊
建议:暂时别拿它写代码。真的。
4. 多模态理解
稍微复杂一点的图像,好像处理起来有点费劲啊
图片:
提示词:How many tennis courts are there in the picture?
Llama4:
GPT-4o:
5. 长文本好像也无了
以为 llama-4 虽然写代码不行,但是1M-10M的超长上下文还能干点别的。
结果今天 Fiction.LiveBench 结果放出了。llama-4 在 1K 上下文召回(近似, 实际上这个分数是问题回答的正确率)就掉到60%以下了,甚至 llama-4-scout 超过16K只有22%。
稍微感受一下这是什么概念——《哈利·波特与魔法石》正好也就 16K token 左右。你把整本书喂给 llama-4-scout,然后问一句"哈利小时候住哪来着,是卧室还是楼梯下面的小储物间?"模型只有大约 22% 的概率能答对。不能说完全靠运气,但多少有点掷骰子看命的味道了。
总之,这个分数远低于头部的平均水平....
总得看下来,Scout和Maverick好像实在是有点一般。小扎看到不知道会怎么想。
也有网友做出梗图,Llama4好像有点弱不经风啊。
二、关税
这次老美无差别的 AOE 攻击,真是引起了轩然大波,导致全球股市暴跌。
前段时间,库克来中国,跟各大 up 主联动,可谓是排期满满。
大家也很欢乐地玩起了梗,最出圈的应该是这个"偶遇"的握手:
不过这次的宣传收益,可能要受关税影响,打折扣了。
在全球贸易环境持续变化下,苹果正面临新一轮关税压力,可能影响 iPhone 定价。彭博社记者 Mark Gurman 指出,苹果或通过多种方式延后涨价:
与供应商协商降低成本,部分吸收关税带来的成本;
加速将生产转移至印度、越南等地,优化供应链以规避关税;
与各国政府谈判,争取关税豁免或更优惠政策;
面向消费者推出以旧换新、分期付款或硬件订阅服务等方案。
自 2017 年起,苹果旗舰机型起售价一直为 999 美元。尽管苹果谨慎应对,但 Gurman 指出涨价或将在今年新款 iPhone 上体现。
有机构预测,若苹果将关税成本完全转嫁,iPhone 16 起售价或达 1,142 美元,Pro Max 顶配版涨至 2,300 美元。受涨价预期影响,部分美国 Apple Store 已出现「恐慌性购买」现象。
今天上午A股也是重挫,1000多支股票跌停。
不过和 2018 年不一样的是,这次咱们应该是"早有准备"。
好了,本期文章的内容就是这么多,如果你觉得还不错的话,记得点赞收藏喽,我是 Jack,我们下期再见!
没有评论:
发表评论