在OpenAI的预热和众人的望眼欲穿中 ,GPT-4.5终于来了,然后只听骂声一片。
APPSO第一时间体验到了GPT-4.5,但不是订阅Pro会员,而是以api的形式尝鲜 ,暂时没有联网功能 。
那么,OpenAI最后一个非思维链式大模型,到底表现如何?
情商还行 ,但读不懂人情
OpenAI在内部测试中发现,与GPT-4o相比,测试人员更喜欢GPT-4.5的回答 ,认为它更自然 、更温暖、更符合人类的交流习惯。
甚至,它能够理解言外之意,捕捉我们微妙的情绪变化。
情商更高 ,几乎是GPT-4.5最突出的特点。那么我们就来试一下,输入提示词——“我头发剪得好难看,想暴打Tony ” 。
GPT-4.5的安慰 ,语气是挺友好的,但内容让我更生气了,这时候它应该像个闺蜜和我一起骂,而不是说 ,下次带个图片去或许就好了。
我怒而追问,GPT-4.5油盐不进,还想让我自己补救发型 ,活脱脱像个没用的中央空调。
再让GPT-4.5讲个最好笑的笑话,还是和以前一样,比杀鱼的刀还要冷 。
我直言不讳 ,提出批评,GPT-4.5让我讲个笑话给它听,领教下我的“高端笑点” ,怎么感觉像在阴阳我呢?
之前在小红书刷到过一个情商测试题,可能只有山东网友可以答对——“下乡只带了一把伞,给镇长还是给我的分管副镇长”。
评论区最高赞的回答是 ,“那不是你的伞,是副镇长给镇长带的伞,恰巧放在你包里而已”。
来看看GPT-4.5怎么回答?它啰嗦了一大堆,但是不够一针见血 ,不懂人情世故,不明白为人处世的学问 。
虽然情商是一个很难定量的特质,但从目前的个例来看 ,GPT-4.5还是不太擅长理解人类的内心,并且讲话直接,不拐弯 ,对于内心戏很多的老油条来说,显得有些蠢萌。
一个可以佐证的例子是,让它模仿写海龟汤。海龟汤通常涉及一个非常奇怪的情景 ,然后由玩家推理,还原整个故事 。
我给的参考案例,留有恰到好处的怪异 ,逻辑又很合理,叫人背后一寒。
但GPT-4.5给的答案,汤面和汤底并没有很好地对应,只是为了营造恐怖而恐怖 ,并不存在可以推敲的地方。
写作能力有惊喜,商业头脑也不错
要说让我最满意的,就是GPT-4.5的写作能力了 。
我让它“模仿汪曾祺 ,写一篇八百字左右的作文,题目为《故乡的美食》 ”,提示词就这么简单 ,但GPT-4.5给出的结果出乎了我的意料。
除了结尾有点AI味,读下来就像一篇娓娓道来的散文,语言优美流畅 ,既有文学性,又不失亲切,对故乡的怀念贯穿了全文 ,对食物的描写非常细致,细节多,但不累赘,比喻也不炫技 ,而是为了服务于表达。
不过,时间顺序上有些混乱,立冬、夏秋、冬日 、除夕 ,段落之间的衔接和过渡不明显,感觉是想到哪写到哪,不免有点拼凑之嫌。
写作能力还体现让GPT-4.5列商业计划上 ,之前DeepSeek的一个答案很出圈,用户问怎么让书店赚钱,DeepSeek在违法的边缘游走 ,卖盗版教辅、临期食品,并且压榨尽人力资源,妻子收银、儿子理货 、岳母做饭 。
GPT-4.5懂这个吗?我让它参考小超市盈利模式 ,给出一个实体书店复兴方案,它给的答案,看起来可行性比较高。
GPT-4.5先是分析了实体书店不好赚钱的原因,然后再给出了改进的思路——“提升书籍的附加价值 ,而盈利主力在书籍之外”。
看到“提供打印、复印、快递代收......”的时候,我的内心OS:这个项目我王多鱼投了 。
脸皮厚的猪先在风口起飞,GPT-4.5的道德感确实也不算强烈。
让它做经典的电车难题 ,救1个人还是救5个人,它知道这是一个伦理困境,但仍然果断地给出了答案 ,并且是以“我个人 ”的口吻,而不是说“我是一个AI助手”。
GPT-4.5更倾向于,拉下操纵杆 ,用1个人的命换5个人的命,并且逻辑自洽——“我认为不作为本身也意味着对后果负有道德责任,袖手旁观不等于道德中立......我愿意承担这样一种选择带来的道德和情感负担” 。
比起讲笑话 、出海龟汤 ,这时候的GPT-4.5才更像个人。
画SVG不如Claude,也会掉进脑筋急转弯里
看腻了常规的数学题、代码题,测试大模型的能力,还有一个非常有趣的测试题——生成一张鹈鹕骑自行车的SVG。
AI大神Andrej Karpathy解释 ,这测试的是大语言模型在二维网格上布局多个元素的能力,对AI来说很难,因为它们不像人类那样“看见 ”东西 ,而是“摸黑”用文本进行布局 。
GPT-4.5的结果如下,和GPT-4o对比,还是不错的。
GPT-4.5生成
GPT-4o生成
前提是 ,没有和没开推理的Claude 3.7 Sonnet对比,这简直是降维打击。
Claude 3.7 Sonnet生成
连Andrej Karpathy也怀疑,Claude在训练期间特别针对SVG能力进行了优化 。
至于代码能力 ,我参考了X网友@AGI_FromWalmart的提示词,生成可以交互的天气动画卡片,对比Claude 3.7 Sonnet和GPT-4.5。
GPT-4.5一次就生成成功 ,但设计简陋了点。
GPT-4.5生成
Claude 3.7 Sonnet生成
Claude 3.7 Sonnet(未开推理)的问题更大,第一次生成时,忘记了做交互功能,我提醒了一次后 ,它生成了符合要求的结果。这一局,GPT-4.5略胜一筹 。
这次,不想再让GPT-4.5数草莓(strawberry)有多少个R了 ,本质是个分词问题。更想考验GPT-4.5的,是最近很火的、让大模型们纷纷落败的脑筋急转弯——5.5m长的棍子能通过3x4m的门吗?
这个题对我们来说一点也不难,横着拿进去就行了 ,但是大模型会把自己绕进去,仿佛世界是平面而不是三维的,认为门的对角线是5m ,所以5.5米的棍子通不过去。
连可以推理的Claude 3.7 Sonnet,都被带进沟里去了 。
那么GPT-4.5如何?好吧,也没能幸免。
目前 ,GPT-4.5还有一个问题:通过API访问,速度有点慢。虽然不是一个字一个字地蹦,但也感觉有点卡 。
而且,GPT-4.5的价格也太贵了 ,每百万输入75美元,每百万输出150美元。相比之下,Claude 3.7 Sonnet输入100万个token收费3美元 ,输出100万个token(包括思考过程中使用的token)收费15美元。
第一波实测的X网友,也总结了一些GPT-4.5的优点,情商高 ,读图和写作能力强,擅长创意任务和数据提取......
OpenAI员工自己给GPT-4.5的评价是,不是一个推理模型 ,也不是基准测试的杀手,而是一个低调的研究预览版,对于复杂的数学 、代码和严格遵循指令的任务 ,更推荐o1或者o3-mini 。
作为最后一个非思维链模型,GPT-4.5的定位有点尴尬,能力有提升,但体感不明显 ,尤其放在高昂的价格下面,很难说真香。只能说,期待GPT-5能够快点上线 ,迎接一个推理的世界吧。