GPT-5为什么没有带来更多惊喜？

本文来自微信公众号：山上，作者：何简，编辑：蒋浇，题图来自：Unsplash

GPT-5性能未与竞品拉开显著差距，部分指标甚至落后。OpenAI转向提升可靠性、降低幻觉和成本（输入成本大降），重点优化编程等核心场景并统一模型（后台自动切换模式）。然而普通用户对性能感知不强，不满统一模型带来的限制和交互风格变化，强烈怀念GPT-4o，迫使OpenAI为付费用户恢复旧模型访问。

• 📊性能对标差异小：Grok-4 Heavy与Claude Opus 4.1在多项基准测试中超过或接近GPT-5。

• 💰性价比显著提升：GPT-5输入成本降至1.25美元/百万tokens，约为GPT-4o的一半。

• ⚙️工程创新求突破：采用统一模型策略后台自主切换模式，替代过往细分型号。

• ✅可靠性增强为亮点：显著降低幻觉、提升指令遵循、减少谄媚并增加安全应答机制。

• 😢用户偏爱引反弹：大量用户不满风格变化与模型切换限制，OpenAI最终为Plus用户恢复GPT-4o访问。

• 🏢应用落地为核心：发布会重点展示编程等专业场景优化，并快速实现微软等多家企业集成。

GPT-4 发布两年半之后，OpenAI 终于发布了旗下最新模型 GPT-5。行业早已为此等待多时，山姆·阿尔特曼（Sam Altman）也持续半年对外预告，吊足公众胃口。但这款旗舰模型上新之初收到的反馈却不尽如人意。

GPT-4 发布时，同行们尚需花费半年乃至更长时间才能追赶上 OpenAI。但 GPT-5 没有与主流模型拉开显著差距。它的部分性能指标甚至有所落后，在一些基准测试中，落后于马斯克的 Grok 4 以及刚刚发布的 Claude Opus 4.1，上下文长度也不及 Google 的 Gemini 2.5 Pro。

普通用户对 GPT-5 的不满声音更强烈一些，他们并没有感受到太多 GPT-5 相较于 GPT-4o 的性能升级，反而更加怀念熟悉的 GPT-4o。OpenAI 原本下架了旧模型，但在遭到用户的强烈反对之后，OpenAI 不得不为 Plus 用户重新上架了 GPT-4o 模型。

我们或许不得不面临一个这样的事实，即便强如 OpenAI，也不得不面临 Scaling laws（缩放定律）的局限。模型规模的持续扩张已经不再像过去那样带来成比例的性能跃迁，迭代周期难免放缓。

从 GPT-4 到 GPT-5 间隔了 29 个月，但这一次没有出现 GPT-3 到 GPT-4 时的那种跨越式提升。过去一年，OpenAI 维持着平均两个月发布一款细分模型的节奏，用令人眼花缭乱的型号填补模型代际更新的真空期：强调推理的 o 系列、更小的 mini 型号、更强性能的 Pro 版本。

和最新发布的 GPT-5 强调可靠性和易用性一样，这些更新都是在性能增长变得越来越昂贵和稀缺背景下的工程创新。它当然变得更好用、更可靠，但也越来越缺少惊喜了。

好在用户也并不总是需要这么强劲的模型。事实上，更多普通用户使用大模型只是完成一些基础的问答，或者仅将大模型作为一个情感伙伴。

ChatGPT 是有史以来用户数破亿最快的应用，现在它的周活跃用户已经达到 7 亿，全球有接近 1/10 的人口都是 ChatGPT 的用户，但更多用户只是使用免费的基础模型。根据 The Information 今年 4 月的消息，ChatGPT 的付费订阅用户约为 2000 万。

GPT-5 目前已经开放给所有用户使用。打开 ChatGPT，更明显的感知是对话界面变得多彩了，用户现在可以自定义对话气泡颜色——但紫色仅限 Plus 用户使用，Pro 用户能使用更尊贵的黑色。总是靠模型能力区分用户等级的 OpenAI，终于也学到了 QQ 会员的精髓。

ChatGPT 加入自定义色彩功能

OpenAI 没有公布 GPT-5 的参数规模。山姆·阿尔特曼在发布会后接受 CNBC 采访时表示，他们未来仍将会优先考虑在训练和算力上的投入，并甘愿为此承受较长时间的亏损。

一、性能未拉开显著差距，但仍是最全面的模型

马斯克可能是 GPT-5 发布会召开时最兴奋的那个人。发布会还没结束，他就早早地在 X 上宣告 Grok-4 的胜利。

在 Humanity’s Last Exam 测试中，GPT-5 Pro 在启用工具后的准确率为 42.0%，略低于 Grok 4 Heavy 模型的 44.4%。在 ARC-AGI-2 基准测试中，Grok-4（Thinking）的成绩为 16.0%，而 GPT-5（High）的得分只有 9.9%。

马斯克专门在 X 上将二者的测试结果对比置顶，“一句话：两周前的 Grok 4 Heavy 比现在的 GPT-5 更聪明。”他随后发出预告，年底发布的 Grok 5 将更加强大。

xAI 联合创始人吴宇怀同样在 X 上表示，GPT-5 发布之后，xAI 团队感到非常自豪。“尽管团队规模小得多，但我们在许多方面都处于领先地位。”他称 xAI 将在未来几周发布更多新模型。

吴宇怀在 X 上的发言

比 GPT-5 早发布 2 天的 Claude Opus 4.1 也在部分测试中超越 GPT-5。在 SWE-bench Verified 测试中，启用了深度思考模式的 GPT-5 得分为 74.9%，只比 Claude Opus 4.1 领先 0.4%——这还是在 Claude Opus 4.1 未启用深度思考的得分。

同样未启用深度思考，GPT-5 的得分比 Claude Opus 4.1 低了接近 30%。或许是照顾到前司的面子，Anthropic 创始人达里奥·阿莫迪（Dario Amodei）并未像马斯克那样对外强调这一领先。

Anthropic 在产品文档中称 SWE-bench Verified 测试未开启深度思考

与性能有限的升级相比，GPT-5 的成本下降更为突出。GPT-5 的输入成本仅为 1.25 美元/百万 tokens，较 GPT-4o 下降约一半，nano 版本甚至低至 0.05 美元/百万 tokens。

与之相比，Claude Opus 4.1 的输入价格高达 15 美元/百万 tokens，Gork 4 为 3 美元/百万 tokens。即便其他模型在部分测试场景下有一定领先，但 GPT-5 仍然是目前你能在市面上找到的性价比最高、能力最全面的模型之一。

在中立评测平台 LMArena 的最新“竞技场”榜单中，GPT-5 依然位列所有测评项目第一，包括文本理解、编程、视觉等类别。“GPT-5 以史上最高分登上 LMArena 榜首。”LMArena 形容称。

LMArena 榜单

OpenAI 在发布会上也明显更重视行业落地应用。发布会开场的性能介绍一笔带过，更多的时间被留给了 GPT-5 在编程、写作和医疗等特定行业的升级，这也是人们使用 ChatGPT 最核心的三个场景。

尤其是编程领域，接近一个半小时的发布会中至少有一半时间都是关于编程。“GPT-5 是世界上最优秀的编程模型。”OpenAI 总裁格雷格・布罗克曼（Reg Brockman）说。

他们不仅邀请了 AI 编程创业公司 Cursor 的创始人兼 CEO 迈克尔・特鲁埃尔（Michael Truell）专门上台演示，还在官网中列举了包括 Windsurf、JetBrains、Manus、Genspark 等 22 家 AI 领域公司高管的测试评价和赞赏。在 OpenAI 过去的产品更新中，这种做法并不常见。

GPT-5 可能是 OpenAI 在 B 端落地速度最快的模型之一。发布会尚未结束，微软 CEO 萨提亚·纳德拉就宣布微软旗下多款产品已接入 GPT-5，包括 Cursor、Manus、Notion 在内的多家公司也都宣布完成集成。

二、更可靠、更易用

山姆·阿尔特曼在 GPT-5 发布后强调，GPT-5 是他们迄今开发的最智能的模型，但他们的核心追求是现实世界的实用性、大规模的可访问性/可负担性。

按照 OpenAI 官网的定义，GPT-5 是一个更加智能、同时应用更广泛的模型。“GPT-5 不仅在基准测试中超越前代模型、响应速度更快，更重要的是对现实场景的提问更具实用价值。”他们着重介绍了 GPT-5 在减少幻觉、提升指令遵循能力和降低模型谄媚性方面的进展。

比如在启用网络搜索的情况下，GPT-5 出现事实错误的概率比 GPT-4o 降低了近一半。在深度思考模式下，GPT-5 的事实错误率比 o3 低了约 80%。GPT-5 也会“更诚实”地面对用户。它能更准确地识别无法完成的任务，诚实地表达自己的能力局限。

GPT-5 与 o3、GPT-4o 模型对比

你或许遇到过不少推理模型一本正经扯谎的情况，尤其是 DeepSeek-R1——它现在是国内应用最广泛的推理模型，但它同时也是幻觉程度最高的模型之一。过去半年 DeepSeek 风格的 AI 虚假文章几乎已经席卷了整个中文互联网，甚至不少专业媒体也未能幸免。

比如前段时间有关“特朗普爱上白宫保洁”短剧狂揽 1.5 亿美元的虚假文章，又或者香港浸会大学取消武大学生博士录取资格的虚假消息。这些 AI 虚假新闻都曾被大量国内媒体转发报道。

部分原因在于，过去大模型更多依赖单一的奖惩式训练（RLHF），在面对信息不足或无解的问题时，这种机制容易让模型倾向于迎合用户预期，给出虚假内容。

而 OpenAI 在 GPT-5 中加入了更精细的多维度优化机制，比如增加了多目标奖励信号，即便模型无法得出答案，也会因为明确表达不确定性而获得正向反馈。又或者在推理过程中加入思维链（CoT）监控，实时识别并纠正虚构或逻辑漏洞。

OpenAI 还为 GPT-5 加入了一种新的安全补全机制（Safe completions），模型在面临危险问题时，不再是干脆地回答或者拒绝。比如当你想了解了解制作炸药，GPT-4o 要么拒绝回答，要么给你详细步骤，而 GPT-5 则会告知出于安全它无法提供具体步骤，但它可以向你介绍 TNT 的历史、化学性质、工业用途。

和此前总是无脑选择谄媚用户的模型相比，GPT-5 也更中立一些，减少了过度迎合的倾向，更少使用表情符号，表达也更为含蓄和深思熟虑。“它给人的感觉更像是与一位有着博士智商的贴心朋友聊天，而不是与 AI 对话。”OpenAI 在产品文档中形容。但这在一定程度上引发了习惯此前模型用户的不满，OpenAI 为 GPT-5 加入了 4 种自定义风格的调整，并承诺此后将加入更多个性化的调整。

简而言之，这些更新都是围绕着模型的可靠性和易用性上做文章，让用户可以更放心地将 AI 引入到自己的工作流程中。OpenAI 的研究员 Christina Kim 在 X 上说，虽然 GPT-5 的性能达到业界顶尖水平，但它真正的价值在于实用性。“它经过更好的校准，会说‘我不知道’，能够区分事实与猜测，并且在你需要时可以提供引用来源来支持答案。”

对于更多用户而言，GPT-5 更重要的升级是他们可以免费使用 ChatGPT 的推理能力。GPT-5 的成本更低、准确率更高且速度更快，免费开放给所有用户，订阅用户享有更高额度。这种普惠策略或许也限制了性能，OpenAI 原本计划推出支持 100 万上下文的版本，但最终因算力成本限制而放弃。

“我们可以推出聪明得多的模型（我们也会这么做），但这次的模型可以让超过十亿人受益。”山姆·阿尔特曼说，“世界上的大多数人可能只是用过类似于 GPT-4o 的模型。”“对于大多数 ChatGPT 用户来说，这是他们首次接触推理能力。”OpenAI 副总裁尼克·特利（Nick Turley）说。

山姆在 X 上的发言

只是，在如此强调模型准确率的发布会上，OpenAI 的多个图表却出现了低级错误。比如在对比 GPT-5 思考模式和 o3 的“代码欺骗率”图表上， 50% 的柱状图长度却不到 47.4%的柱状图的一半。山姆后来解释称，数据本身是准确的，只是直播时搞错了图表，“工作人员熬夜加班非常疲惫，人为失误在所难免。直播前最后几小时需要协调太多环节了。”

OpenAI 发布会中的多个图表错误

三、为什么普通用户更喜爱旧模型？

专业开发者，尤其是软件从业人员对 GPT-5 充满了赞扬，多数普通用户对这款旗舰模型的更新却满是怨言。

和此前 OpenAI 通过多个不同模型提供服务不同，GPT-5 采用了统一模型策略，模型可在后台自主判断是否调用深度思考模式、自主选择不同体量的模型回答。“它旨在通过恰到好处的思考，为你提供完美答案。”OpenAI 的研究员在发布会中介绍。

但这一设计在上线之初就出了问题，GPT-5 在多数场景下的反应和回答都不如旧模型。山姆·阿尔特曼随后解释说，自动切换器（Autoswitcher）因为故障停摆了大半天，导致系统无法按需调用更高性能的推理模式。他称故障已经修复，并承诺将会对模型切换进行调整和干预，让用户更方便地获得正确的模型。

山上实测对比当前 GPT-5 以及 GPT-4o 模型，发现在部分简单问题下，GPT-5 的表现仍然不如 GPT-4o。比如询问它 GPT-5 有哪几个版本，GPT-5 无法给出准确回答。社交平台上也有大量用户在山姆表示故障修复后，强调 GPT-5 的回答质量不如 GPT-4o。

GPT-5 与 GPT-4o 回答对比（上图为 GPT-5，下图为 GPT-4o）

OpenAI 统一模型的初衷是减轻用户的选择烦恼。自 GPT-4 时代以来，OpenAI 一改此前只发布一款通用模型的做法，开始针对特定场景发布更多专业模型。在产品命名方面也有些混乱，推理模型从 OpenAI o1 到 o3，GPT-4 Turbo 之后却是代表多模态的 GPT-4o。在 GPT-5 更新前，ChatGPT 上可供选择的模型多达 5 款之多，这在客观上确实增加了用户的理解成本。

OpenAI 主要模型发布时间表/GPT-5 制图

“这是第一次用户无需在不同模型间做选择，甚至不用考虑模型名称。”OpenAI 的研究员 Elaine Ya Le 说，她在发布会中介绍了 GPT-5 的模型自主切换功能，她也是这一功能的团队负责人。

只是，多数普通用户可能仍然没办法接受 OpenAI 统一模型的做法。GPT-5 目前已成为 ChatGPT 的默认模型，但用户无法在前端判断 ChatGPT 调用的到底是 GPT-5 标准版还是 mini 版本。和此前多个模型供用户选择相比，GPT-5 统一模型后，用户实际的可使用限额也降低了，尤其是取消了 mini 模型的推理模式。

OpenAI 后续称，他们将为用户开发 GPT-5 mini 的思考模式，以实现相同的总体推理限额。面向 Plus 用户，GPT-5 最大只能支持 32k 的上下文长度也引发不少吐槽，Gemini、Claude 在相同价格下都支持更长的上下文长度。

X 平台上针对 GPT-5 上下文窗口长度的吐槽

山姆不得不连发两条推文安抚用户，承诺将更清晰地向用户展示哪个模型在回答问题、更便捷地切换深度思考以及将 Plus 用户使用限额提高一倍至 160 条——但 OpenAI 在官网表示，这只是临时性额度提升，近期将恢复至原有限额。

GPT-5 使用限额

这些都还只是工程上的优化，通过一定时间的迭代就能解决。OpenAI 另一个没有预料到的问题可能是部分用户对旧版模型的情感依赖。即便 GPT-5 的能力更强，但更多普通用户仍然更习惯使用旧版模型。在 Reddit 平台上的 ChatGPT 板块中，有大量用户分享他们对旧版模型的偏爱，他们甚至不在意模型能力是否升级，“只要还是 4o 我就愿意一直付费。”

Reddit 社区内用户对旧模型的喜爱

发布会次日，山姆·阿尔特曼带着 OpenAI 团队在 Reddit 平台上举办了一次问答活动，排名第一的提问就是要求 OpenAI 恢复 GPT-4o 及其他旧版模型，“用户有不同的使用习惯！”

山姆·阿尔特曼回复称，他们已经听到了用户的反馈，将会为 Plus 用户重新开放这一功能。山姆此后在 X 上说，他们低估了用户对于 GPT-4o 的喜爱程度。目前，OpenAI 已经为 Plus 用户恢复了 GPT-4o 模型的使用权限，付费用户可在 ChatGPT 网页版启用旧版模型。但山姆补充称，他们会视情况考虑保留旧模型的时长。

OpenAI 已为 Plus 用户恢复 GPT-4o 模型

“你没有从根本上理解为什么大家珍视它们。”一位 ChatGPT 用户在山姆的帖子下留言说。“不同模型不仅在准确度和速度上有差异，它们同时拥有各自独特的性格、思维和互动方式以及独特的‘感觉’。将它们视为需要逐步淘汰的东西，实际上是在把它们当作过时的工具来对待，而对我们许多人来说，它们更像是独特的合作伙伴。”

山姆推文下的用户评论

这可能是即便山姆一直强调 GPT-5 要比旧模型优秀得多，但用户仍然不买账的原因之一。人们并不总是需要性能最强的模型，但人们对于习惯以及情感的依赖要强得多，即便和他们对话的只是一个 AI。

OpenAI 或许从未真正意识到这一点，否则他们也不会在发布会上安排 GPT-5 为 GPT-4o 以及旧版模型写悼词，目的还是展现 GPT-5 的性能优越。在后续官网的产品更新文档中，OpenAI 没有再展示这一场景，转而让 GPT-5 创作诗歌。

尤其是在前文所说的种种减少幻觉、谄媚以及安全补全机制的更新下，GPT-5 的个性更加平淡了，它不会使用聊天表情，回答也更谨慎和含蓄，这让习惯了 4o 的用户们感到陌生。

“它不能就这样从列表中删除然后被抹去，就好像从未存在过一样。”一位 ChatGPT 用户在 Reddit 上说。

本文来自微信公众号：山上，作者：何简，编辑：蒋浇

电车新能源发展网

电车新能源发展网

GPT-5为什么没有带来更多惊喜？

admin

Related Posts

在香港：空间如何颠覆生活？

机器人进校潮背后：AI产业正在争夺“真实世界入口”

发表回复取消回复

You Missed

在香港：空间如何颠覆生活？

机器人进校潮背后：AI产业正在争夺“真实世界入口”

热钱滚滚，热血沸腾

高考报名人数为什么会下降？

4000亿公募产品率先“换锚”

房子卖了

电车新能源发展网

电车新能源发展网

GPT-5为什么没有带来更多惊喜？

admin

Related Posts

在香港：空间如何颠覆生活？

机器人进校潮背后：AI产业正在争夺“真实世界入口”

发表回复 取消回复

You Missed

在香港：空间如何颠覆生活？

机器人进校潮背后：AI产业正在争夺“真实世界入口”

热钱滚滚，热血沸腾

高考报名人数为什么会下降？

4000亿公募产品率先“换锚”

房子卖了

发表回复取消回复