GPT-4.5 感觉有点拉胯,但其实是 OpenAI 迄今为止最大的一步赌注

news/2025/3/6 12:10:18/文章来源:https://www.cnblogs.com/jellyai/p/18754707

Alberto Romero

I. GPT-4.5 就是起跳前的助跑那一步

OpenAI 推出了 GPT-4.5(官方博客、系统卡片、演示视频),这是他们最新也是目前最大的一款 AI 模型。他们其实一年多前就开始放风,说它叫 Orion,结果很多人还以为是 GPT-5。现在终于来了……但感觉吧,有点拉胯。至少看起来是这样。今天我们就聊聊这个“是”和“看起来是”之间的微妙区别,到底咋回事。

你可能一堆问号:

为什么 GPT-4.5 的测试分数还不如几个月前的那些模型?

OpenAI 为什么憋了一年多,最后搞出来个不是最强的?

为啥比之前的 OpenAI 模型和竞争对手的都贵这么多?

为啥做得这么大,按理说预训练规模效应不是早就到瓶颈了吗?

不是说一直要冲数学和编程能力吗,怎么突然又搞起创意、直觉和情商这一套了?

幸好,我这儿都有答案。

也幸好,OpenAI 不透明的操作——加上他们浪费了这么好的营销机会——给了我这篇文章的存在意义。

不啰嗦,我们马上过一遍 GPT-4.5 的规格和测试成绩。我会把 OpenAI 演示里说的,系统卡片里写的(包括后来被骂后偷偷改掉的),还有那些提前用上 GPT-4.5 的早期用户的体验,都给你们汇报一下。(目前 GPT-4.5 只开放给 Pro 用户,下周才轮到 Plus 用户。)

然后我们再回到刚才那几个问题上,好好捋捋这个看似拉胯的模型到底图啥——最后也会告诉你,为什么我觉得即使有 Sonnet 3.7、DeepSeek-R1 和 Grok 3,OpenAI 还是稳稳的。

别着急,先给个小提示:今天的 GPT-4.5 只是个麻烦,明天它就是 OpenAI 最大的底牌。

这次发布,不是那种公司要放鞭炮庆祝的发布会。OpenAI 自己都不怎么兴奋,他们更想赶紧把这个东西甩出去,然后专心搞接下来的大活儿(就这几周或几个月的事儿)。

GPT-4.5 简单说就是起跳前的那个蹬地助跑。

后面才是起飞。

II. 失望是正常的:贵、慢、还过时

系统卡片开头就这样写的(官方博客差不多意思):

我们推出了 OpenAI GPT-4.5 的研究预览版,这是我们迄今为止最大、最博学的模型。它建立在 GPT-4o 的基础上,把预训练规模拉满,目标是比那些专注理科推理的模型更通用。

然后还补了一句:

GPT-4.5 不是前沿模型,但它是 OpenAI 最大的 LLM,比 GPT-4 的计算效率提升了 10 倍。虽然 GPT-4.5 的世界知识更多,写作水平更高,个性也更细腻,但它并没有带来真正“全新”的前沿能力……

这段基本定下了基调。

GPT-4.5 又大又贵,就算计算效率提升 10 倍,跑起来还是很烧钱。偏偏能力又不是最强,测试成绩我马上给你看。这不就是“花钱买气受”吗?

(顺便说句,“10倍效率提升”和“不是前沿模型”这两句,其实是他们后来从系统卡片里悄悄删掉的。我猜是后知后觉发现,这样宣传简直是自砸招牌:啥意思啊,10倍效率还比以前贵10到25倍?还给我们个更烂的模型?知识截止还停在2023年10月?)

这里插句关于 GPT-4.5 体积的八卦。10倍效率却10倍成本,这说明它是真的大。大概率又是 Mixture of Experts(专家混合)那一套,跟之前 OpenAI 和 DeepSeek 那些路线一样。有人猜它是 1 万亿个激活参数,总参数可能 10-15 万亿,这不正好印证我去年对 GPT-5 体积的预测吗?(OpenAI 乱改名字咱就不管了。)

当然,这都是猜测,猜测才好玩嘛。真实参数我们永远都不会知道,等 Semianalysis、EpochAI 那些硬核机构来细抠吧。

除了又大又贵,GPT-4.5 也不是推理模型(不是冲着理科和逻辑去的),而是个基础通用模型,偏软技能方向(比如普通聊天机器人)。如果你拿 GPT-4.5 去跟那些专门搞推理的(比如 o1/o3)比 GPQA、数学竞赛、代码竞赛、SWE-bench 这种测试,肯定拉胯。

作为一个写字的,我反而觉得是好事。我早就盼着有个对审美和文笔更讲究的模型了。对大部分普通 ChatGPT 用户来说也不错啊,反正价格不变(200块一个月或20块一个月),你还能换个写得更顺、更像人的模型。

但那些习惯了最近那波又便宜又能推理的理科模型(o1/o3、Sonnet 3.7、DeepSeek-R1、Grok 3)的开发者,估计要骂街了。OpenAI 自己也没打算藏着掖着,但光靠诚实是安抚不了这些人的。GPT-4.5 每百万输出 token 要150刀,比 DeepSeek V3 贵150到300倍。

所以 OpenAI 在博客最后才说,他们还在考虑要不要长期开放 GPT-4.5 的 API 服务。供着它不但拖慢训练下一代模型,还太烧资源。再说,这么大个东西,速度还慢。谁会花300倍的价钱用这只乌龟,尤其是竞品早就把同类功能卷成白菜价了?

其实我也不懂为啥他们非要上 GPT-4.5(不光 API,连 ChatGPT 里也上了)。按照我之前写 GPT-5 那篇文章的思路,OpenAI 最该做的是把这种超级大基础模型关起来自己用,压榨出又强又便宜的小模型。这样你那4亿周活用户——他们永远是优先快和便宜的——和你钱包都能轻松点。

反正 GPT-4.5 从 API 下架也没啥大不了的。OpenAI 服务的几千万用户里,关心演示视频、盯着 Sam Altman 推文的,根本是极少数。真在乎的里头,愿意掏钱买 API 的又是极少数。(而且他们很多还更喜欢用 Anthropic 的。)

Sam Altman 心里有数,OpenAI 完全可以暂时让科学家、程序员、研究员们失望一下,反正 ChatGPT 订阅费是稳的。GPT-4.5 只是个临时的小麻烦,他扛得住。

III. 有时候你不是要把天花板抬高,而是把地板垫高

系统卡片里最重要的一句话是这句:

GPT-4.5 是我们在无监督学习范式上迈出的下一步。

这句话估计大部分人都会忽略。那些喜欢瞎解读的 AI 圈大V,肯定会自由发挥,想怎么编怎么编,时间线上的人也懒得较真儿。OpenAI 其实是想把这个点传递出去,但我觉得大概率没人听进去。

所以如果你只记住这篇文章的一件事儿,就记住这句:

他们训练 GPT-4.5 不是为了把天花板抬高,而是为了把地板垫高。

“无监督学习的扩展”,说白了就是“预训练的扩展”——就是模型刚开始的时候,直接往里倒一堆互联网数据,让它先学会最基本的语言能力和世界常识的那个阶段。这个阶段垫得越高,后面才越好发力。

自从 OpenAI 在2024年9月推 o1-preview 之后,整个圈子的关注点就转向“推理能力扩展定律”(或者说推理能力依赖的推理计算)。大家都跟风,重点都不在底子有多好,而是后期训练能不能让它变聪明。

GPT-4.5 就是一次对“预训练规模定律”的回访。虽然大家都说“预训练”进入瓶颈期,但瓶颈期不是“彻底没用”,只是“效益递减”。所以,AI 公司隔段时间还是得回头,重新做一轮大规模预训练。就算表面上看,像 GPT-4.5 这种“垫底”型模型,好像退步了,但这是必须的步骤。

之前我在 DeepSeek 的文章里画过一张图,专门讲为什么公司需要更强的基础模型,才能把整体技术水平往上拉:

很多人评价 AI 模型的时候犯的最大错误就是:

只看数据点(GPT-4.5 测试成绩一般般),不看轨迹(OpenAI 要 GPT-4.5 干啥)。

他们觉得预训练和后训练是对立的(GPT-4.5 是预训练路线的死路),其实它们是互补的(好底子才能炼出好推理)。

(AI 圈有个共识,就是语言推理模型能在去年爆发,不是因为突然哪儿开了窍,而是因为基础模型的尺寸和训练数据量终于堆到及格线以上了。之前很多类似思路都失败了,就是因为底子不行。GPT-4.5 的预训练量是 GPT-4 的10倍,说不定它就是下一代推理模型的发射台。)

要是还不太清楚 GPT-4.5 和其他模型啥关系,我给你举个简单的人类类比:

GPT-4.5 就是个天赋逆天的婴儿,爸妈都是顶级学霸;而 o1/R1 是个普通但靠谱的成年人,大学数学课学得还不错。

要是你现在找个员工干活儿,肯定选后者。可那娃还会长大啊——GPT-4.5 会变成 GPT-5、o4 之类的老大哥。

大家还会继续说 GPT-4.5 让人失望,继续唱衰预训练。但失望是对啥?预训练对拿数学竞赛金牌的确没啥用。但谁在乎呢?现在已经有一堆数学和编程天才模型了,但它们连最简单的脑筋急转弯都解不了。

所以,你必须把地板垫高。没有点基本常识的 AGI,根本不值钱。

如果 GPT-4.5 硬核智商不算高,但蠢得少,那我举双手支持。

更何况,它还可以当成未来模型的垫脚石,真香。

所以,训练 GPT-4.5 对 OpenAI 来说是战略级关键动作,哪怕它本身有点拉胯,产品层面慢又贵,都是值得的。

IV. 但说真的,你们把 GPT-4.5 最强的点藏得太深了

话说回来,OpenAI 完全可以宣传得更好点。因为虽然 GPT-4.5 不爱思考,但它有别的优点啊。

我们来看看图表,顺便告诉你,为什么我先提前打个预防针:

你真用起来,可能比预期还要失望。

SimpleQA 这个测试是看 LLM 对简单但***钻的知识问题答得准不准。

STEM/agentic 评测成绩

SimpleQA 里 GPT-4.5 知识面比以前广,瞎编率也比以前低(注意,OpenAI 只跟自己家模型比,没拿其他公司的比)。GPQA、AIME 2024、SWE-Lancer Diamond 和 SWE-bench Verified 这些理科和任务型评测,GPT-4.5 比 GPT-4o 的确强点儿。看起来还行。

但问题来了:GPT-4.5 还是比不过 DeepSeek V3,在所有同时测试的项目上(GPQA、AIME 2024、SWE-bench Verified)全输了。

所以,总结一下:比 GPT-4o 强点儿,但比最强的非推理模型差一截——还贵2到3个数量级。OpenAI 这回真是尴尬了。

(顺便说一句,DeepSeek V3 虽然不算纯推理模型,但它后期加了强化学习,而 GPT-4.5 估计就是普通微调+RLHF,主打一个听话和乖巧。)

OpenAI 在系统卡片里列了其他评测分数,结论都差不多:这是个不差,但完全不惊艳的模型。

但我纳闷儿:既然 GPT-4.5 主打创意、直觉、情感,你们为啥还要硬拿 STEM/agentic 那套去比?为啥不搞一套更贴合 GPT-4.5 特点的测试,比如创意写作、情感理解啥的?Ethan Mollick 教授不是一直说,这些东西其实是可以量化测出来的吗?

可能 OpenAI 自己也觉得这种东西不好量化,或者他们故意留一手,怕 GPT-4.5 太出彩,抢了 GPT-5 的风头。搞不好他们本来就想“先挨顿骂,等 GPT-5 一鸣惊人”,结果诚实过头,自己先给自己上了一课。

但无论如何,我都不觉得 GPT-4.5 会在榜首挂太久。再说一次,我的判断是:OpenAI 早就知道 GPT-4.5 会被喷,但它是个过渡,撑到 GPT-5 上线就好。

V. 低品味测试者的暴政:大家还是更喜欢 GPT-4

我必须特别提一下 Andrej Karpathy 关于 GPT-4.5 的几条帖子。

他发了一条超长推文,说他从 GPT-1 一路用到现在,对 GPT 系列的进化有啥感受。然后,就用一句话点破了 GPT-4.5 和那些推理模型的最大区别:

……这次发布其实就是在质感上给大家展示,纯粹靠堆预训练算力,能把底子垫到什么程度。

不过他也补了一句:说实话,跟 GPT-4 比起来,GPT-4.5 的提升非常微妙,非常细腻,甚至大多数情况下根本分不出来。

但他还是做了个实验。他搞了个投票,让大家盲测两组模型 A 和 B,在五个不同的对话场景里比一比,看哪边的感觉更好(重点看创意、幽默感、文字风格这些,也就是 GPT-4.5 主打的那些软实力)。我也参加了。老实说,真挺难区分的。我隐约觉得其中一个更像现在的 GPT-4o,风格更新、更活泼一点,我就选了那个。

但其他人完全不这么看。Karpathy 后来公开了投票结果,大部分人其实还是更喜欢 GPT-4:

• 问题 1:GPT-4.5 是 A;56% 的人选了它。

• 问题 2:GPT-4.5 是 B;43% 的人选了它。

• 问题 3:GPT-4.5 是 A;35% 的人选了它。

• 问题 4:GPT-4.5 是 A;35% 的人选了它。

• 问题 5:GPT-4.5 是 B;36% 的人选了它。

他自己也说,这挺尴尬的。

最后 Karpathy 总结说:

可能是高品味的测试者能感受到 GPT-4.5 那种微妙的新质感,但被低品味的大众给淹没了。也可能是大家都在瞎猜。也可能是这几组测试题本身选得就不太行。也可能是两者本来就差不多。或者这些原因全加一块。所以最后他说,还是等更大规模、更专业的 LM Arena 测试结果吧。但至少他自己玩了两天之后的感受是:GPT-4.5 确实有点新东西,创意和文笔上确实多了点灵气,讲段子、说相声、搞吐槽都更有意思了。

我其实一点都不惊讶,如果大部分人最后还是更喜欢 GPT-4 或 GPT-4o。这反而说明 GPT-4.5 确实做对了。毕竟,大家平时更爱看的是 AI 屎诗,而不是人类写的好诗。我们不能指望所有人都是高品味测试员,对吧?

VI. 不能给作者惊喜,就别指望给读者惊喜

我一直在想,AI 写作到底还能变多好?

这个东西我们怎么量化?为啥 AI 聊天机器人到现在还是蠢萌蠢萌的,尤其是在唯一真正重要的“人味儿”评测里——这个评测我们早就忘了:是不是更像个有血有肉的人?这不就是 Moravec 悖论再现吗?最难的,永远是我们觉得最简单的事儿。写点好东西,可真没那么容易。

说实话,这么多年大家太快就冲着 STEM 去了,数学、代码这堆硬指标卷疯了,但其实模型在“写东西、聊天、搞笑、创意”这些事上,远远没练到家。从这个角度看,GPT-4.5 其实是一次亡羊补牢式的回归。(不过,说实话,我也不觉得 GPT-4.5 在写作上真的有多炸裂,只是比以前稍微顺点而已,这真不咋地。)

最后,我想用一段话收尾,顺便解释下为什么我一直觉得:写作这事儿,永远是语言模型最难啃的骨头。

AI 写出来的东西,没有人类手笔指导的话,总感觉是平的。为啥?因为语言模型天生缺一样东西——惊喜感。它们的训练目标,正好就是别给你惊喜,它们的任务是预测最可能的词儿,而不是偶尔突然灵光一闪,冒出个让你拍大腿的词儿。但最好的写作,恰恰是靠惊喜活着的。

诗人罗伯特·弗罗斯特说过:“作者自己没有惊喜,读者更别想有。”

你要是写出来的东西自己都觉得无聊,那读的人更是打哈欠。

最可惜的是,大语言模型的训练目标,恰好是:选最可能的词,而不是——哪怕偶尔——选个不那么可能的。我说的不是选个完全胡说八道的词——人类好作者的本事,正是能精准地选出那种既不普通、也不离谱的词,像树枝一样,拐出个你意想不到但又特别顺的弯儿。这种感觉,非常难找,更难掌握。

AI 现在,还离这个境界远着呢。按照现在这套路,可能永远也到不了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/894573.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT 4.5 可能是戳破 AI 泡沫的模型

GPT 4.5 可能是戳破 AI 泡沫的模型 Andrew Zuo本文点评:在AI技术狂飙突进的同时,也有许多声音包括本文的作者在内都认为AI行业正陷入巨大泡沫,技术突破逐渐停滞,高昂的硬件成本与资本退潮或将引爆寒冬。然而,这些观点大多忽视了技术的本质价值,真正值得关注的并非模型参数…

前端静态页面放在oss上cdn上的配置

0. 这次改造的原因问题1:前端发布的过程中由于使用了单pod,发布完pod在启动的时候服务对外不可用问题2:如果用滚动更新可能会带来的问题 发布过程中,机器A发布完了,机器B没有发布完。 用户访问一个页面,页面请求打在 A上,然后js资源打在B上,B上没有然后就命中了404逻辑…

Nginx 工作机制参数设置(详细讲解说明)

1. Nginx 当中的 master-worker 机制原理 master-worker 工作原理图:一个 master 管理多个 worker[root@localhost ~]# cd /usr/local/nginx/ [root@localhost nginx]# ls auto CHANGES.ru conf contrib html logs man proxy_temp sbin …

无钥匙进入系统和无钥匙启动系统PEPS

经纬恒润的无钥匙进入及启动系统简称 PEPS (Passive Entry Passive Start) 系统,采用 RFID(无线射频识别)技术,实现无需按动遥控器即可进入车内以及一键启动发动机等功能。 经纬恒润的无钥匙进入及启动系统简称 PEPS (Passive Entry Passive Start) 系统,采用 RFID(无…

阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!

3月6日最新消息,阿里云通义千问官方宣布推出最新推理模型 QwQ-32B,这一模型仅有 32B 参数,但在效果上与拥有 671B 参数的 DeepSeek-R1 相媲美。如果你自己部署 DeepSeek-R1 但资源不够的话,又多了一个新的选择。 QwQ-32B 的独特之处不仅在于其参数规模和效果表现,还集成了…

使用 vxe-table 导出 excel,支持带数值、货币、图片等带格式导出,通过官方自动的导出插件 plugin-export-xlsx 实现导出功能

使用 vxe-table 导出 excel,支持带数值、货币、图片等带格式导出,通过官方自动的导出插件 plugin-export-xlsx 实现导出功能 查看官网:https://vxetable.cn gitbub:https://github.com/x-extends/vxe-table gitee:https://gitee.com/x-extends/vxe-table 安装 npm install…

SpringBoot的自动装配原理探析

SpringBoot的意义在于在Spring手动管理bean的基础上,自动的管理。如果说,Spring为手动装配,那么SpringBoot管理bean既可以称之为“自动装配”。 SpringBoot的鼎鼎大名在于其魅力无限的自动装配。

【Windows安全】Windows认证原理入门+实战验证

一、基本原理: Windows密码的路径是: %SystemRoot%\System32\config\sam # 即”SAM路径“当我们登陆系统时,系统会自动地读取SAM文件中的密码与我们输入的密码进行比对,密码会被转换为HTML HASH(NT LAN Manager)进行存储。 Windows本身不存储用户的明文密码,Windows会…

windows系统下部分软件(新版wps,有道云笔记等)字体出现断笔,锯齿感,模糊的解决方式

解决方式会放在文后,直接拖拽到最下方即可 问题描述: 我需要把这个问题描述的详细些,这样你们可以通过更多的关键词找到我这个博客。 这个问题困扰了我好几年,最近因为要使用obsidian,但是发现还是有这个问题,终于下定决心去处理它。 首先这个字体的问题并不是模糊,但很…

安川机器人基板JANCD-XEW01-2维修细节查看

安川机器人基板JANCD-XEW01-2维修细节查看一、常见故障安川机器人基板JANCD-XEW01-2在使用过程中可能出现以下常见故障:| 故障类型 | 具体表现 || 电源故障 | 元件老化、电源电压异常等 || 通信故障 | 线路故障或接口损坏导致与其他部分通信出现问题 || 逻辑运算错误 | 软件缺…

vivo 大规模容器集群运维平台实践

容器平台已经成为支持应用运维和部署的重要基础设施,当前 vivo 内部容器平台共有20+生产集群,管理数万物理机节点,运维管理难度不断增大。为提升运维效率和稳定性,容器团队开发了北斗运维管理平台用于解决大规模集群运维问题。北斗容器运维管理平台包含资源管理,集群扩缩容…

20250306

20号胶 给人以希望