当AI能够通过\x26quot;人类最后考试\x26quot;的近半试题时,我们是否已经站在了智能时代的分水岭?\x0d\x0a答案是肯定的,而且这个分水岭就在明天——北京时间7月11日上午11点。\x0d\x0a最聪明的人不是预测未来,而是创造未来。\x0d\x0a最幸运的人不是赶上了风口,而是认清了风向。
点击下方,关注后台回复【666】,免费领取【AI学习礼包】
就在你还在为周末计划纠结时,一个足以改写AI历史的时刻即将到来。马斯克刚刚确认:太平洋时间7月10日晚8点,Grok 4 将正式发布。
与此同时,X上一组令人惊诧的跑分数据悄然曝光——在被称为"人类最后考试"的HLE测试中,Grok 4竟然拿下了45%的成绩!整整是目前最强模型Gemini 2.5 Pro的两倍!
当AI能够顺利通过号称"人类最后考试"的近半试题时,我们是否应该评估AI在人类社会中的地位?
被重新定义AI能力边界
HLE(Humanity's Last Exam)测试,号称连人类专家都只能勉强完成50%。它的设计之初就是为了模拟最高水平的人类推理场景,博士生面对它也要汗流浃背。
而Grok 4在HLE的测试表现中却可圈可点,数据也非常不错:
HLE推理测试:Grok 4拿下了45%,而此前的霸主Gemini 2.5 Pro也只有21%,Claude 4 Opus仅得10.7% GPQA(研究生级科学问题):Grok 4达到87-88%,力压Gemini 2.5 Pro的86.4% AIME 2025(数学竞赛):Grok 4获得95%,将Claude 4 Opus的75.5%远远甩在身后 SWE-bench(软件工程问题):Grok 4 Code版本在软件问题测试上达到了72-75%。
如果这些数据还没办法说明问题的话,也可以关注他的千亿估值。
1130亿估值狂欢
跑分数据好,资本市场嗅觉也十分灵敏,这不xAI最新一轮融资一口气拿下100亿美元(50亿股权+50亿债务),估值直接飙升至1130亿美元。
值得注意的是xAI成立不到两年,就已经跻身全球最有价值AI公司行列,对比其AI大厂这速度,绝对的火箭了:
OpenAI估值约3000亿美元,但它苦心经营了8年。 Anthropic估值615亿美元,背靠的是谷歌和亚马逊。 而xAI,在如此短的时间内就达到了1130亿美元的天价估值。
Grok 4的跑分是否如原来的小米一样那就不得而知了,但可以证明的是xAI正在与AI顶尖大厂们缩小差距。更关键的是马斯克的X帝国,xAI正在通过整合X平台,形成了独特的"AI-社交-数据"三位一体生态圈,这让其他竞争对手望尘莫及。
最后
从马斯克确认发布时间的那一刻起,就知道游戏规则变了。
现在摆在面前的选择很简单:要么主动拥抱这个变化,要么被这个变化抛弃。
对于整个社会来说,我们正在进入一个""的时代。掌握AI工具的人和不掌握的人之间的差距,可能比互联网时代的数字鸿沟更加明显。
回到文章开头的问题:当AI能够通过"人类最后考试"的近半试题时,我们是否已经站在了智能时代的分水岭?
答案是肯定的,而且这个分水岭就在明天——北京时间7月11日上午11点。
最聪明的人不是预测未来,而是创造未来。最幸运的人不是赶上了风口,而是认清了风向。
当你还在纠结周末计划的时候,马斯克已经在重新定义人类与AI协作的可能性。这就是差距,也是机会。
最后为了让大家能更快的提升大家AI方面的知识,我特别为粉丝准备了免费领取价值99的,3天的体验破解卡,为你开启AI的学习之旅。
扫码
链接我领礼包
「 往期精选文章 」
还在花几千块找配音师?这3个AI配音神器太逆天,成本降低90%!
实测Google Gemini CLI后,发现OpenAI已无退路!
Claudia发布,优雅界面赋能Claude Code,Cursor瞬间不香了!
MiniMax Speech 02 击败 OpenAI 登顶双榜,中国AI再次让世界刮目相看!
一文看懂在GitHup 10万星标的n8n,与Coze、Dify到底应该怎样选择
没有评论:
发表评论