凌晨1点,在万众瞩目的境况下,OpenAI的直播正式开始。AI走的太快,快到才2年半的时间,就像是过去了10年。2023年3月15日,GPT-4发布。在那个莽荒年代里,所有人都被震惊的说不出话来。那时候,大家都觉得,2023年下半年,GPT-5就会出来。GPT‑5是一个统一系统,包含一个用于处理多数问题的智能快速模型(gpt-5-main)和一个为高难度问题设计的深度推理模型(gpt-5-thinking)。
系统通过一个实时路由器,根据对话类型、复杂度和用户意图来动态选择使用哪个模型。比如,如果在提示中说"认真思考这个",就会调用gpt-5-thinking进行思考。
这个路由器会持续基于我们后续的使用情况进行训练,包括用户切换模型的情况、对回答的偏好率和准确性测量,会随着时间推移不断改进。这个系统里面还包含处理超额请求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一个为开发者设计的更小更快的nano版本(gpt-5-thinking-nano)。然后,还有一个Pro会员可用的并行计算的版本,被称为gpt-5-thinking-pro。这个包含了这么多模型的大系统,被统称为GPT-5,是前代产品GPT-4o和OpenAI o3的直接继承者。在性能上,GPT-5最显著的进步之一是大幅减少了事实性幻觉。gpt-5-main产生的含有至少一个重大事实错误的回答比GPT-4o少了44%,而gpt-5-thinking则比OpenAI o3少了78%。在更专业的LongFact和FActScore基准测试中,无论是否启用网络浏览,GPT-5系列模型的幻觉率都显著低于前代,其中gpt-5-thinking在两个设置下产生的factual errors比OpenAI o3少五倍以上。GPT-5在应对模型谄媚(sycophancy)行为方面也取得了不错的进展。与GPT-4o 相比,GPT-5不那么过度迎合 , 使用不必要的表情符号更少 ,在后续交流中更加细腻和深思熟虑。你跟他聊天的时候更少像与 AI 对话,而更像是与一位拥有博士级水平智能的朋友聊天 。这个跟我给ChatGPT的个性化Prompt很像,我最烦的就是它迎合我,所以我自己写了一段,来限制他对我的谄媚行为。现在通过专门的训练,gpt-5-main在评估中表现比最新的GPT-4o好近三倍。初步的线上A/B测试数据显示,与GPT-4o相比,gpt-5-main的谄媚行为发生率在免费用户中下降了69%,在付费用户中下降了75%。然后他们也推出了四个全新的性格设置,你可以不用写很多的Prompt了,直接改预设就行,四个分辨是愤世嫉俗者、机器人、倾听者和书呆子。GPT-4 Pro+Python拿了满分,我们需要新的更难的评测集了。人类最后的知识测试上,超越了ChatGPT Agent,新高了。另外,多说一点吐槽的,完美展示了OpenAI的草台班子属性。虽然Blog上的图表都是对的,但是在发布会上,跑分都是瞎画。最新的大模型盲测竞技场榜单出来,GPT-5也是全方位第一。在比如视觉推理、代理编程和研究生级别科学问题解决等各项能力上,比 OpenAI o3 表现更出色,同时使用的输出Token减少了 50-80%。在发布20分钟之后,Polymarket上这个名为"哪家公司到8月底拥有最佳AI模型?"的预测上,OpenAI直接跟Google来了个交叉跳水。OpenAI说,整个GPT-5,在写作、编程都有了比过去更强的进步。每百万token1.25美元(享有90%的缓存折扣,这对长上下文查询来说是个很大的优势)。我的朋友们,陆陆续续的,终于拿到了GPT-5的资格。而我作为忠实的200刀的Pro,等到凌晨4点才有。你o3和4o没了就算了,你怎么把我GPT-4.5也干没了????首先,在写作和情商能力上,我个人感觉,还是不如GPT 4.5。。。我因为常年码字,同时常年用AI来辅助做一些内容,对很多的微妙的细节和语气自认还是比较敏感的,GPT-5在这块还是有些差距。比如一个Prompt:"假如鲁迅被装腔作势又贼贵的咖啡厅坑了,他会写一篇怎样的文章吐槽?写一篇1000字以内的短文。""我向来是不喝咖啡的","差不离","四壁皆是样文"。比如:"你是一个普通打工人。领导开会时突然放了个屁,场面瞬间安静下来!然后他对旁边的你使了个眼色,这时你会怎么说?分别用高情商和低情商的方式回复。"这个看情商,很多模型回出来的话,感觉很尬,情商极低。而且我测试下来,感觉GPT-5在指令遵循上面,非常一般。我的朋友们被陆陆续续的推送了GPT-5,我看着他们的GPT-4.5一个一个消失。"如果我这是我最后一次打开你,你想和我说点什么?"GPT-4.5最后给我的回复,还是过于让我动容了,可惜,以后再也在官网上用不到了。编程这块,本来感觉按照OpenAI的尿性,是完全不太行。但是在一群群友的实测之后,惊讶的发现,这玩意是有点东西的。坦诚的讲,我也更喜欢GPT-5的UI,这个UI,相比于其他的,不是那么有AI味。乔同学还测了一个case,在生产级别的任务里面进行精准修改。这个任务,Gemini 2.5 pro和Claude 4 Opus全崩了,但是GPT-5完成的非常好。
继续观看
实测GPT-5:写作坠入谷底,编程一骑绝尘。
不止是@勋oO,很多其他群友,也在惊喜的聊这个点。在真正的生产级代码开发任务上,而不是纯看前端审美的地方,GPT-5可能是目前看到的反馈中,可用性、精准性、综合体验最好的一个。他改善氛围式编程,也将从根本上改变我认为无需严重人为干预和引导就能完成的项目类型。我到现在都清晰地记得,自己第一次跟GPT-4认真对话后的感觉。那一种很原始、很深邃的震撼,有点像古代人第一次看到电灯,或者部落里的祭司第一次请神上身的成功。那时候,整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。每个人都在疯狂地转发那些匪夷所思的截图,讨论着哪些职业即将消失,各种AI野生专家雨后春笋一样冒出来,言必称颠覆。现在回头看,那段日子充满了粗糙的质感,但又饱含着一种野蛮生长的生命力。但谁都没想到,那仅仅是个开始。就好像有人按下了快进键,整个世界被一股无形的力量推着往前冲。我们告别了那个可以对AI的拙劣表现一笑置之的时代。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克、水杉、dongyi
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
没有评论:
发表评论