2025年2月27日星期四

全网狂喷 ChatGPT-4。5,而我却看到了它的禅意

ChatGPT4.5 发布,而奥特曼带娃缺席。
整个发布会重点就两点:
- 贵,比 4o 贵 15 倍,输入75输出150 美刀。

- GPT-4.5 在走高情商和强创作能力路线

(GPT-4.5 目前仅经过预训练和人类反馈强化学习(RLHF),因此它并不是一个推理模型,这意味着在需要严格推理的任务上,GPT-4.5 并不会带来显著提升)
目前 Cursor,Windsurf 和 Openrouter 都已经能用了。
一开始我也想骂,但我好像看到了一样特别的东西。
开始测评:
既然是主打高创作力,就来个笑话试试?好像不太行,做首关于曲奇饼诗?好像也一般般。

试试一个赛博朋克的路线:
发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派,为其命名,并提供一个简短的示例叙事,左边是 4.5,右边是 4o:
再试试大神说的,让他们吐槽一下 openai:
左边是 4.5,右边是 4o,其实两边都写得还可以,但这里我好像看到 4.5 的惊喜的地方:
- 仔细看 4o 的回答,明显的 ai 味道,几乎每一个点都要举一些很强行的例子,比如【这不就相当于厨子做饭不尝味就直接上桌?客户都当免费测试员了是吧?】这里的厨子和客服就是典型的 AI 味道。
- 反观看看 4.5,论点非常自然,比如这句就非常像我们自己写的,AI 味道减少了很多,而且论点有并列递进,很丝滑。
再者,OpenAI的模型总是过于谨慎,以至于有时候显得特别胆小。你问它一些稍微敏感一点的问题,它就会立刻变得小心翼翼,甚至直接拒绝回答。你问它一些稍微有争议的话题,它就会立刻变得模棱两可,甚至直接回避问题
再试试大神的例子,这次我对比了 4 个模型:从一个"退休的搜索引擎"视角出发,怀念互联网早期的日子,顺序在文末,可以盲猜一下。

官方是4.5极大地减少了幻觉,我隐隐约约有一种感觉:
4.5 像一个看山还是山的最后一个阶段,文笔朴素克制,只是淡淡地诉说关于自己的一切,没有花里胡哨的举例和夸张的比喻。
它的文字变得更加克制、更加谨慎,甚至带着一种谦逊的自觉。
最后再来看看它画的图:生成一个 SVG 图片,画一只骑自行车的鹈鹕:


这种朴素或许就是 AI 走向成熟的另一个标志?
(顺序是:Grok3 ,Claude 3.7,gpt4o,gpt4.5)

没有评论:

发表评论

多领域SOTA诞生!Vid2World:打通视频扩散到世界模型的“任督二脉”|清华、重大

论文链接:https://arxiv.org/pdf/2505.14357 项目链接:https://kni 论文链接:https://arxiv.org/pdf/2505.14357  项目链接:https://knightnemo.github.io/vid2world/...