2025年11月19日星期三

大模型卷疯了,美国大佬预测,失业率或将飙升到20%。。。

上周四 GPT-5.1 空降,声称是目前情商智商最均衡的版本。

图片

另一边,Gemini 3 预热已久,目前已经是呼之欲出,随时可能官宣的状态。

图片

之前网传 22 号发布,刚刚 Logan 的一条推文又让网友们纷纷猜测明天就会推出,可谓是吊足了胃口。

就在网友们一边等 Gemini 3、一边玩 GPT-5.1 的时候,今早凌晨,在没有任何预兆的情况下,xAI 官宣了 Grok 4.1 。

图片

目前已经全面上线,对所有用户开放,网页端、X 、iOS 和 Android 移动端应用上均可免费使用(非思考模型)。

以自动模式推出,并且可以在模型选择器中明确选择为" Grok 4.1 "。

图片

关于这次升级,和 GPT-5.1 一样,主打一个情商智商都在线。

具体实力怎么样?先来看跑分情况。

一、Grok 4.1

Grok 4.1 除了在通用能力上有所提高,在情商、创意写作、幻觉减少上均有突破,我们一个个往下看。

SOTA 通用能力

综合能力上,Grok 4.1 思考模式和快速模式分别在 LMArena 上排在第一和第二名。

图片
图片

Grok-4.1-thinking 更是拿下 1483 Elo 的高分,猛甩之前的第一名 Gemini 2.5 pro 31 分。相比连前十都没进的 Grok 4 可以说是一大进步了。

在为期两周的盲测评估中,对 Grok 4 的胜率是 64.78% 。

图片

情商

为了衡量模型人格和人际交往能力的提高,xAI 使用 EQ-Bench 进行评估,评测维度包括模型的主动情绪智能、理解力、洞察力、共情力和人际交往能力。

一共有 3 个回合,涵盖 45 个具有挑战性的角色扮演场景。

Grok 4.1 同样登顶该榜单。

图片

除了跑分,官方给出了一个和旧版 Grok 对比的对话例子。

图片

创意写作

Grok 4.1 在创意写作 v3 基准测试上进行了评估,该基准测试同样是在 3 次迭代中对 32 个不同写作场景进行了评估。

Grok 4.1 是除了 GPT-5.1 之外唯二上了 1700 分的模型,仅次于 GPT-5.1 。

图片

值得注意的是,该分数目前还未进入该排行榜的正式榜单中。

图片

来看一个例子。

图片

旧版 Grok 的回复:

图片

Grok 4.1 的回复:

图片
图片
图片

叫老马爸爸这种事也是让人有点啼笑皆非了。

图片

减少幻觉

配备搜索工具的非推理模型可以快速给出答案,但由于推理深度和工具调用预算有限,容易出现事实错误。

在 Grok 4.1 的后训练阶段中,Grok 团队专注于减少信息检索提示中出现的事实性幻觉,并在随后的观察中发现,对于抽样生成的信息检索提示,幻觉发生率显著降低。

在包含 500 个个人传记问题的 FActScore 测试中,Grok 4.1 非推理模式的成绩也比旧版有了明显进步。

图片

同样来看一个例子。

图片

Grok 4.1 不仅能按照事实回答,还能输出图片。

平时用大模型多的友友应该清楚,有的是高分低能选手。

Grok 4.1 发布的第一时间,我也去国内外各大平台上搜罗了一波网友的最新评价,来看网友的反馈怎么样。

网友反馈

正向评价

图片
图片
图片
图片

除了正面反馈,很多网友也提出了一些问题。

一些问题

比如,Grok 4.1 thinking 做出的电风扇 svg 动画 be like :

图片
图片
图片
图片

有网友提到 4.1 的叙事能力较之前有所降低。

图片
图片

不少人还提到 4.1 的回答过于冗余

图片
图片

幻觉方面的体验并没有达到 4.1 号称的预期效果。

图片
图片
图片

整体风评刷下来,感觉 4.1 相较旧版在某些方面有提升,但并没有实现让人瞠目结舌的突破。

小伙伴们可以一边亲自上手体验一下,一边耐心等一波 Gemini 3 。

关于 Grok 4.1 的更多详细信息,大家可以去下面的链接看一波 xAI 官方发的博客:

https://x.ai/news/grok-4-1

二、硬币的另一面

图片

一边是巨头们争先恐后发布模型,智能每几个月就升个级,一边关于 AI 发展的隐忧也愈见甚嚣尘上。

图片

昨天,Anthropic 首席执行官达里奥·阿莫迪在 CBS 《 60 分钟》节目中称:

AI 可能在一到五年内消除咨询、法律和金融领域的一半入门白领岗位,可能导致美国失业率从 4.2% 升至 10-20% 。

他提到 Anthropic 内部使用 Claude AI,该 AI 生成了公司 90% 的代码,这证明了 AI 在日常任务中的高效性。

Anthropic 约 80% 的收入来自企业:其中约有 30 万家企业使用 Claude 。

Anthropic 团队研究了客户如何使用 Claude,发现 Claude 正在帮助用户越来越多地完成任务,还能够推理和决策,推动客户服务和分析复杂的医学研究。

这一预测立刻在外网上引发了关于 H-1B 签证政策、监管需求和再培训工作的热烈讨论,同时也引发了对应届毕业生就业竞争的担忧。

但也有人对他的言论表示质疑:

图片

没人能说定未来究竟会怎么样,但人人都可以预测。

前两天老马在特斯拉的年度股东大会上还预测公司的人形机器人擎天柱将通过创造产品和提供服务彻底消除贫困,实现全民高收入

图片

不到一个月前他还预测 AI 将创造全民高收入,使工作成为选择而非必需。

图片

比尔盖茨预测以后会变成上二休五

图片

对于这样的预测,我只能说但愿如此了。

三、最后

属实没有想到,在广大网友们的万众瞩目和千呼万唤中,没蹲到 Gemini 3 ,反而是猝不及防地等到了 GPT 5.1 和 Grok 4.1 。

图片

预热了这么久,希望 Gemini 3 能不负众望搞一波大的,让我们一起拭目以待!

图片

>/ 本期作者:Tashi  & JackCui

>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。

没有评论:

发表评论

离线翻译神器Argos Translate:40+语种,无网也能精准翻译

开源离线翻译工具Argos Translate,支持40余种语言本地互译,无需网络连接。智能语言转换功能实现间接翻译,兼顾隐私与便捷,是出行、无网络环境的翻译利器。 推荐阅读: 70.9K Star!官方ai开发指南!建议收藏! 推荐:一个识别、翻译、阅读与智能分析工具!强到...