GPT-5为什么没有带来更多惊喜?

本文来自微信公众号:山上,作者:何简,编辑:蒋浇,题图来自:Unsplash 

GPT-5性能未与竞品拉开显著差距,部分指标甚至落后。OpenAI转向提升可靠性、降低幻觉和成本(输入成本大降),重点优化编程等核心场景并统一模型(后台自动切换模式)。然而普通用户对性能感知不强,不满统一模型带来的限制和交互风格变化,强烈怀念GPT-4o,迫使OpenAI为付费用户恢复旧模型访问。

• 📊性能对标差异小:Grok-4 Heavy与Claude Opus 4.1在多项基准测试中超过或接近GPT-5。

• 💰性价比显著提升:GPT-5输入成本降至1.25美元/百万tokens,约为GPT-4o的一半。

• ⚙️工程创新求突破:采用统一模型策略后台自主切换模式,替代过往细分型号。

• ✅可靠性增强为亮点:显著降低幻觉、提升指令遵循、减少谄媚并增加安全应答机制。

• 😢用户偏爱引反弹:大量用户不满风格变化与模型切换限制,OpenAI最终为Plus用户恢复GPT-4o访问。

• 🏢应用落地为核心:发布会重点展示编程等专业场景优化,并快速实现微软等多家企业集成。

GPT-4 发布两年半之后,OpenAI 终于发布了旗下最新模型 GPT-5。行业早已为此等待多时,山姆·阿尔特曼(Sam Altman)也持续半年对外预告,吊足公众胃口。但这款旗舰模型上新之初收到的反馈却不尽如人意。

GPT-4 发布时,同行们尚需花费半年乃至更长时间才能追赶上 OpenAI。但 GPT-5 没有与主流模型拉开显著差距。它的部分性能指标甚至有所落后,在一些基准测试中,落后于马斯克的 Grok 4 以及刚刚发布的 Claude Opus 4.1,上下文长度也不及 Google 的 Gemini 2.5 Pro。

普通用户对 GPT-5 的不满声音更强烈一些,他们并没有感受到太多 GPT-5 相较于 GPT-4o 的性能升级,反而更加怀念熟悉的 GPT-4o。OpenAI 原本下架了旧模型,但在遭到用户的强烈反对之后,OpenAI 不得不为 Plus 用户重新上架了 GPT-4o 模型。

我们或许不得不面临一个这样的事实,即便强如 OpenAI,也不得不面临 Scaling laws(缩放定律)的局限。模型规模的持续扩张已经不再像过去那样带来成比例的性能跃迁,迭代周期难免放缓。

从 GPT-4 到 GPT-5 间隔了 29 个月,但这一次没有出现 GPT-3 到 GPT-4 时的那种跨越式提升。过去一年,OpenAI 维持着平均两个月发布一款细分模型的节奏,用令人眼花缭乱的型号填补模型代际更新的真空期:强调推理的 o 系列、更小的 mini 型号、更强性能的 Pro 版本。

和最新发布的 GPT-5 强调可靠性和易用性一样,这些更新都是在性能增长变得越来越昂贵和稀缺背景下的工程创新。它当然变得更好用、更可靠,但也越来越缺少惊喜了。

好在用户也并不总是需要这么强劲的模型。事实上,更多普通用户使用大模型只是完成一些基础的问答,或者仅将大模型作为一个情感伙伴。

ChatGPT 是有史以来用户数破亿最快的应用,现在它的周活跃用户已经达到 7 亿,全球有接近 1/10 的人口都是 ChatGPT 的用户,但更多用户只是使用免费的基础模型。根据 The Information 今年 4 月的消息,ChatGPT 的付费订阅用户约为 2000 万。

GPT-5 目前已经开放给所有用户使用。打开 ChatGPT,更明显的感知是对话界面变得多彩了,用户现在可以自定义对话气泡颜色——但紫色仅限 Plus 用户使用,Pro 用户能使用更尊贵的黑色。总是靠模型能力区分用户等级的 OpenAI,终于也学到了 QQ 会员的精髓。

ChatGPT 加入自定义色彩功能

OpenAI 没有公布 GPT-5 的参数规模。山姆·阿尔特曼在发布会后接受 CNBC 采访时表示,他们未来仍将会优先考虑在训练和算力上的投入,并甘愿为此承受较长时间的亏损。

一、性能未拉开显著差距,但仍是最全面的模型

马斯克可能是 GPT-5 发布会召开时最兴奋的那个人。发布会还没结束,他就早早地在 X 上宣告 Grok-4 的胜利。

在 Humanity’s Last Exam 测试中,GPT-5 Pro 在启用工具后的准确率为 42.0%,略低于 Grok 4 Heavy 模型的 44.4%。在 ARC-AGI-2 基准测试中,Grok-4(Thinking)的成绩为 16.0%,而 GPT-5(High)的得分只有 9.9%。

马斯克专门在 X 上将二者的测试结果对比置顶,“一句话:两周前的 Grok 4 Heavy 比现在的 GPT-5 更聪明。”他随后发出预告,年底发布的 Grok 5 将更加强大。

xAI 联合创始人吴宇怀同样在 X 上表示,GPT-5 发布之后,xAI 团队感到非常自豪。“尽管团队规模小得多,但我们在许多方面都处于领先地位。”他称 xAI 将在未来几周发布更多新模型。

吴宇怀在 X 上的发言

比 GPT-5 早发布 2 天的 Claude Opus 4.1 也在部分测试中超越 GPT-5。在 SWE-bench Verified 测试中,启用了深度思考模式的 GPT-5 得分为 74.9%,只比 Claude Opus 4.1 领先 0.4%——这还是在 Claude Opus 4.1 未启用深度思考的得分。

同样未启用深度思考,GPT-5 的得分比 Claude Opus 4.1 低了接近 30%。或许是照顾到前司的面子,Anthropic 创始人达里奥·阿莫迪(Dario Amodei)并未像马斯克那样对外强调这一领先。

Anthropic 在产品文档中称 SWE-bench Verified 测试未开启深度思考

与性能有限的升级相比,GPT-5 的成本下降更为突出。GPT-5 的输入成本仅为 1.25 美元/百万 tokens,较 GPT-4o 下降约一半,nano 版本甚至低至 0.05 美元/百万 tokens。

与之相比,Claude Opus 4.1 的输入价格高达 15 美元/百万 tokens,Gork 4 为 3 美元/百万 tokens。即便其他模型在部分测试场景下有一定领先,但 GPT-5 仍然是目前你能在市面上找到的性价比最高、能力最全面的模型之一。

在中立评测平台 LMArena 的最新“竞技场”榜单中,GPT-5 依然位列所有测评项目第一,包括文本理解、编程、视觉等类别。“GPT-5 以史上最高分登上 LMArena 榜首。”LMArena 形容称。

LMArena 榜单

OpenAI 在发布会上也明显更重视行业落地应用。发布会开场的性能介绍一笔带过,更多的时间被留给了 GPT-5 在编程、写作和医疗等特定行业的升级,这也是人们使用 ChatGPT 最核心的三个场景。

尤其是编程领域,接近一个半小时的发布会中至少有一半时间都是关于编程。“GPT-5 是世界上最优秀的编程模型。”OpenAI 总裁格雷格・布罗克曼(Reg Brockman)说。

他们不仅邀请了 AI 编程创业公司 Cursor 的创始人兼 CEO 迈克尔・特鲁埃尔(Michael Truell)专门上台演示,还在官网中列举了包括 Windsurf、JetBrains、Manus、Genspark 等 22 家 AI 领域公司高管的测试评价和赞赏。在 OpenAI 过去的产品更新中,这种做法并不常见。

GPT-5 可能是 OpenAI 在 B 端落地速度最快的模型之一。发布会尚未结束,微软 CEO 萨提亚·纳德拉就宣布微软旗下多款产品已接入 GPT-5,包括 Cursor、Manus、Notion 在内的多家公司也都宣布完成集成。

二、更可靠、更易用

山姆·阿尔特曼在 GPT-5 发布后强调,GPT-5 是他们迄今开发的最智能的模型,但他们的核心追求是现实世界的实用性、大规模的可访问性/可负担性。

按照 OpenAI 官网的定义,GPT-5 是一个更加智能、同时应用更广泛的模型。“GPT-5 不仅在基准测试中超越前代模型、响应速度更快,更重要的是对现实场景的提问更具实用价值。”他们着重介绍了 GPT-5 在减少幻觉、提升指令遵循能力和降低模型谄媚性方面的进展。

比如在启用网络搜索的情况下,GPT-5 出现事实错误的概率比 GPT-4o 降低了近一半。在深度思考模式下,GPT-5 的事实错误率比 o3 低了约 80%。GPT-5 也会“更诚实”地面对用户。它能更准确地识别无法完成的任务,诚实地表达自己的能力局限。

GPT-5 与 o3、GPT-4o 模型对比

你或许遇到过不少推理模型一本正经扯谎的情况,尤其是 DeepSeek-R1——它现在是国内应用最广泛的推理模型,但它同时也是幻觉程度最高的模型之一。过去半年 DeepSeek 风格的 AI 虚假文章几乎已经席卷了整个中文互联网,甚至不少专业媒体也未能幸免。

比如前段时间有关“特朗普爱上白宫保洁”短剧狂揽 1.5 亿美元的虚假文章,又或者香港浸会大学取消武大学生博士录取资格的虚假消息。这些 AI 虚假新闻都曾被大量国内媒体转发报道。

部分原因在于,过去大模型更多依赖单一的奖惩式训练(RLHF),在面对信息不足或无解的问题时,这种机制容易让模型倾向于迎合用户预期,给出虚假内容。

而 OpenAI 在 GPT-5 中加入了更精细的多维度优化机制,比如增加了多目标奖励信号,即便模型无法得出答案,也会因为明确表达不确定性而获得正向反馈。又或者在推理过程中加入思维链(CoT)监控,实时识别并纠正虚构或逻辑漏洞。

OpenAI 还为 GPT-5 加入了一种新的安全补全机制(Safe completions),模型在面临危险问题时,不再是干脆地回答或者拒绝。比如当你想了解了解制作炸药,GPT-4o 要么拒绝回答,要么给你详细步骤,而 GPT-5 则会告知出于安全它无法提供具体步骤,但它可以向你介绍 TNT 的历史、化学性质、工业用途。

和此前总是无脑选择谄媚用户的模型相比,GPT-5 也更中立一些,减少了过度迎合的倾向,更少使用表情符号,表达也更为含蓄和深思熟虑。“它给人的感觉更像是与一位有着博士智商的贴心朋友聊天,而不是与 AI 对话。”OpenAI 在产品文档中形容。但这在一定程度上引发了习惯此前模型用户的不满,OpenAI 为 GPT-5 加入了 4 种自定义风格的调整,并承诺此后将加入更多个性化的调整。

简而言之,这些更新都是围绕着模型的可靠性和易用性上做文章,让用户可以更放心地将 AI 引入到自己的工作流程中。OpenAI 的研究员 Christina Kim 在 X 上说,虽然 GPT-5 的性能达到业界顶尖水平,但它真正的价值在于实用性。“它经过更好的校准,会说‘我不知道’,能够区分事实与猜测,并且在你需要时可以提供引用来源来支持答案。”

对于更多用户而言,GPT-5 更重要的升级是他们可以免费使用 ChatGPT 的推理能力。GPT-5 的成本更低、准确率更高且速度更快,免费开放给所有用户,订阅用户享有更高额度。这种普惠策略或许也限制了性能,OpenAI 原本计划推出支持 100 万上下文的版本,但最终因算力成本限制而放弃。

“我们可以推出聪明得多的模型(我们也会这么做),但这次的模型可以让超过十亿人受益。”山姆·阿尔特曼说,“世界上的大多数人可能只是用过类似于 GPT-4o 的模型。”“对于大多数 ChatGPT 用户来说,这是他们首次接触推理能力。”OpenAI 副总裁尼克·特利(Nick Turley)说。

山姆在 X 上的发言

只是,在如此强调模型准确率的发布会上,OpenAI 的多个图表却出现了低级错误。比如在对比 GPT-5 思考模式和 o3 的“代码欺骗率”图表上, 50% 的柱状图长度却不到 47.4%的柱状图的一半。山姆后来解释称,数据本身是准确的,只是直播时搞错了图表,“工作人员熬夜加班非常疲惫,人为失误在所难免。直播前最后几小时需要协调太多环节了。”

OpenAI 发布会中的多个图表错误

三、为什么普通用户更喜爱旧模型?

专业开发者,尤其是软件从业人员对 GPT-5 充满了赞扬,多数普通用户对这款旗舰模型的更新却满是怨言。

和此前 OpenAI 通过多个不同模型提供服务不同,GPT-5 采用了统一模型策略,模型可在后台自主判断是否调用深度思考模式、自主选择不同体量的模型回答。“它旨在通过恰到好处的思考,为你提供完美答案。”OpenAI 的研究员在发布会中介绍。

但这一设计在上线之初就出了问题,GPT-5 在多数场景下的反应和回答都不如旧模型。山姆·阿尔特曼随后解释说,自动切换器(Autoswitcher)因为故障停摆了大半天,导致系统无法按需调用更高性能的推理模式。他称故障已经修复,并承诺将会对模型切换进行调整和干预,让用户更方便地获得正确的模型。

山上实测对比当前 GPT-5 以及 GPT-4o 模型,发现在部分简单问题下,GPT-5 的表现仍然不如 GPT-4o。比如询问它 GPT-5 有哪几个版本,GPT-5 无法给出准确回答。社交平台上也有大量用户在山姆表示故障修复后,强调 GPT-5 的回答质量不如 GPT-4o。

GPT-5 与 GPT-4o 回答对比(上图为 GPT-5,下图为 GPT-4o)

OpenAI 统一模型的初衷是减轻用户的选择烦恼。自 GPT-4 时代以来,OpenAI 一改此前只发布一款通用模型的做法,开始针对特定场景发布更多专业模型。在产品命名方面也有些混乱,推理模型从 OpenAI o1 到 o3,GPT-4 Turbo 之后却是代表多模态的 GPT-4o。在 GPT-5 更新前,ChatGPT 上可供选择的模型多达 5 款之多,这在客观上确实增加了用户的理解成本。

OpenAI 主要模型发布时间表/GPT-5 制图

“这是第一次用户无需在不同模型间做选择,甚至不用考虑模型名称。”OpenAI 的研究员 Elaine Ya Le 说,她在发布会中介绍了 GPT-5 的模型自主切换功能,她也是这一功能的团队负责人。

只是,多数普通用户可能仍然没办法接受 OpenAI 统一模型的做法。GPT-5 目前已成为 ChatGPT 的默认模型,但用户无法在前端判断 ChatGPT 调用的到底是 GPT-5 标准版还是 mini 版本。和此前多个模型供用户选择相比,GPT-5 统一模型后,用户实际的可使用限额也降低了,尤其是取消了 mini 模型的推理模式。

OpenAI 后续称,他们将为用户开发 GPT-5 mini 的思考模式,以实现相同的总体推理限额。面向 Plus 用户,GPT-5 最大只能支持 32k 的上下文长度也引发不少吐槽,Gemini、Claude 在相同价格下都支持更长的上下文长度。

X 平台上针对 GPT-5 上下文窗口长度的吐槽

山姆不得不连发两条推文安抚用户,承诺将更清晰地向用户展示哪个模型在回答问题、更便捷地切换深度思考以及将 Plus 用户使用限额提高一倍至 160 条——但 OpenAI 在官网表示,这只是临时性额度提升,近期将恢复至原有限额。

GPT-5 使用限额

这些都还只是工程上的优化,通过一定时间的迭代就能解决。OpenAI 另一个没有预料到的问题可能是部分用户对旧版模型的情感依赖。即便 GPT-5 的能力更强,但更多普通用户仍然更习惯使用旧版模型。在 Reddit 平台上的 ChatGPT 板块中,有大量用户分享他们对旧版模型的偏爱,他们甚至不在意模型能力是否升级,“只要还是 4o 我就愿意一直付费。”

Reddit 社区内用户对旧模型的喜爱

发布会次日,山姆·阿尔特曼带着 OpenAI 团队在 Reddit 平台上举办了一次问答活动,排名第一的提问就是要求 OpenAI 恢复 GPT-4o 及其他旧版模型,“用户有不同的使用习惯!”

山姆·阿尔特曼回复称,他们已经听到了用户的反馈,将会为 Plus 用户重新开放这一功能。山姆此后在 X 上说,他们低估了用户对于 GPT-4o 的喜爱程度。目前,OpenAI 已经为 Plus 用户恢复了 GPT-4o 模型的使用权限,付费用户可在 ChatGPT 网页版启用旧版模型。但山姆补充称,他们会视情况考虑保留旧模型的时长。

OpenAI 已为 Plus 用户恢复 GPT-4o 模型

“你没有从根本上理解为什么大家珍视它们。”一位 ChatGPT 用户在山姆的帖子下留言说。“不同模型不仅在准确度和速度上有差异,它们同时拥有各自独特的性格、思维和互动方式以及独特的‘感觉’。将它们视为需要逐步淘汰的东西,实际上是在把它们当作过时的工具来对待,而对我们许多人来说,它们更像是独特的合作伙伴。”

山姆推文下的用户评论

这可能是即便山姆一直强调 GPT-5 要比旧模型优秀得多,但用户仍然不买账的原因之一。人们并不总是需要性能最强的模型,但人们对于习惯以及情感的依赖要强得多,即便和他们对话的只是一个 AI。

OpenAI 或许从未真正意识到这一点,否则他们也不会在发布会上安排 GPT-5 为 GPT-4o 以及旧版模型写悼词,目的还是展现 GPT-5 的性能优越。在后续官网的产品更新文档中,OpenAI 没有再展示这一场景,转而让 GPT-5 创作诗歌。

尤其是在前文所说的种种减少幻觉、谄媚以及安全补全机制的更新下,GPT-5 的个性更加平淡了,它不会使用聊天表情,回答也更谨慎和含蓄,这让习惯了 4o 的用户们感到陌生。

“它不能就这样从列表中删除然后被抹去,就好像从未存在过一样。”一位 ChatGPT 用户在 Reddit 上说。

本文来自微信公众号:山上,作者:何简,编辑:蒋浇

  • Related Posts

    2025IP三大趋势:怀旧、AI、线下

    IP业界新机会与挑战并存,热闹永不停歇

    流感季或将提前,疫苗市场如何变化?

    三价疫苗“以量换价”,四价疫苗价格趋稳

    发表回复

    您的邮箱地址不会被公开。 必填项已用 * 标注

    bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak bokep anak
    xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn xnxx porn