摘要
一句话总结
GPT-5.2 Pro 是 ChatGPT 专属的高级推理代理,通过极长的思考时间来解决复杂且多约束的难题,尽管耗时较长且订阅费达200美元/月,但为重度用户提供了极高的任务可靠性和价值。
关键要点
- 独立系统与可用性:Pro 是 ChatGPT 界面内独有的独立代理(可能使用了额外的并行计算),目前不支持 API、Codex CLI、Cursor 或 Cline。
- 耗时极长:思考时间通常在 5 分钟到 1 小时以上不等,用户需要改变工作流(提交提示词后离开,完成后再查看)。
- 擅长复杂与高风险任务:在处理需要平衡多重约束的难题、生产级代码或深度研究时表现卓越,甚至能自动补全提示词中未明确说明的背景和约束条件。
- 基于代码的推理方式:在推理摘要中显示,Pro 会大量使用代码来组织工作记忆(例如通过代码规划书籍结构、整理思路列表和权衡利弊)。
- 提示词要求极高:由于试错的时间成本极高,提示词必须极其清晰且包含具体约束;作者建议先使用 Claude Opus 4.5 提问并完善提示词后,再提交给 Pro。
- 对比其他模型:全面优于标准版 GPT-5.2 Thinking;但在创意写作的文笔和明确的快速代码修改上,Claude Opus 4.5 仍具微弱的风格优势。
- 版本提升:相比 5.1 Pro 整体能力提升约 15%,在极难任务上愿意花更长时间思考,但常规任务的响应速度与前代基本持平。
- 定价与受众:包含无限次 Pro 查询的订阅费为 200 美元/月,适合需要解决硬核问题且精通提示词的重度 AI 用户,不建议普通用户或初学者使用。
风险与不足
- 高昂的时间沉没成本:当模型思考很长时间(如 45 分钟)后失败时,会造成严重的时间浪费。
- 生态接入受限:仅限 ChatGPT 网页界面使用,无法集成到代理编程工作流或第三方开发工具中。
- 潜在的假设错误:模型偶尔会在推理过程中做出错误的假设或误解部分问题,导致最终输出看似合理但偏离了用户的实际意图。
正文
在我的GPT-5.2 主要评测中,我曾称 Pro 模式在代码方面简直是“彻头彻尾的怪兽”,并承诺会专门写一篇深入探讨的文章。这篇文章就是为此而写的。
如果你还没看过那篇主要评测,简单来说就是:GPT-5.2 在指令遵循、推理、文风和代码生成方面都有了实质性的飞跃,但标准模型对于日常使用来说太慢了。真正有趣的地方在于 Pro 模式……只要问题需要,它就愿意花时间去思考,而且给出的结果往往令人惊艳。
让我们深入了解一下细节。
Pro 到底是什么
首先,为还没用过它的人澄清几点。GPT-5.2 Pro 是 ChatGPT 内部的一个独立系统。它不仅仅是“思考时间更长的 GPT-5.2”……它是一个独立的智能体,(很可能)使用了某种形式的并行/额外计算来提高可靠性,并使其能够处理的问题难度实现了质的飞跃。
Pro 模式仅在 ChatGPT 内部可用。在 Codex CLI 中没有。在 API 中没有。在 Cursor 或 Cline 中也没有。只能在 ChatGPT 界面中使用。这一点一直让我感到沮丧。我很想在基于智能体的编程工作流中使用 Pro……但目前来说,现实就是如此。
时间投入
让我先设定一下预期:Pro 很慢。无论我问什么,我从未见过它的思考时间少于五分钟。对于复杂的问题,比如高难度的编程任务、条件苛刻的创意生成、研究任务、数据分析等,我曾看着它思考了 45 分钟,有时甚至超过一个小时。尤其是那些带有严苛约束条件的任务,会导致极其漫长的思考时间。
这改变了你的使用方式。当我把任务发给 Pro 时,我不会干坐着等。我会(极其)谨慎地构建好提示词,粘贴进去,然后就去做别的事了。出门办点事,或者做个午饭。等我回来时,它就完成了。
如果你习惯了常规模型的即时响应,这听起来可能有些荒谬。但最终的结果证明这种等待是值得的。在大多数情况下,Pro 给出的交付物是我用其他任何方式都无法得到的。
我几乎从不使用 ChatGPT 中的 Instant 模式。Thinking 模式要好得多,而 Pro 模式更是好得离谱。与这两种模式,以及我尝试过的几乎所有其他前沿模型相比,Instant 模式感觉相当迟钝。
什么时候值得使用 Pro
在日常的编程任务中,我使用带有标准 GPT-5.2 的 Codex CLI。越是用它,我就越觉得惊艳……这是我在 CLI 环境中最接近使用 Pro 模型的体验,而且它一次性做对的概率比我尝试过的任何其他工具都要高得多。令人沮丧的地方在于速度:在我所能使用的超高推理模式下,它可能会耗费极其漫长的时间,有时甚至比 Pro 还要久。但它已经足够优秀,以至于我经常连输出都不检查,特别是当我的提示词指令明确且清晰时。它几乎总是正确的。长上下文处理能力也是它最大的优势之一,这让它在处理庞大的代码库时表现出色。不过,对于某些特定类型的工作,我还是会专门去用 Pro。
第一类是真正困难的问题。大多数模型在这些任务上都会败下阵来,因为它们需要同时平衡许多约束条件,或者需要对没有明显解决方案的问题进行推理。
第二类是容不得半点闪失的工作,比如生产环境代码或重要决策。对于任何一旦出错就会产生实质性后果的任务,Pro 的可靠性都让这种时间投入变得物有所值。
甚至,即使有些任务不是特别难,但只要我想要一个详尽透彻的解答,且不需要立刻拿到结果,我也会选择使用 Pro。
GPT-5.2 Pro 在处理难题时令人印象深刻的一点是:它非常擅长直觉地领悟到我甚至没有在提示词(prompt)中写明的内容。有时我会忘记提及某个约束条件,或者没想到要补充某些背景信息,而 Pro 总能以某种方式将其考虑在内。它对问题的建模比我描述的还要完整。
一个具体的例子
我正在开发一款新应用(也许很快会分享更多相关信息?),它需要平衡大量不同的约束条件……工程时间、当今可用 AI 技术的成熟度、极其严格的用户体验考量、成本等等。同时把所有这些都处理好是极其困难的。
当我描述我想要构建的产品,并要求提供符合这些约束条件的想法时,大多数模型都一败涂地。它们通常会放弃,要么只优化其中一个约束条件而忽略其他条件,要么提出实际上根本不可行的解决方案。
我把这个问题交给了 Pro。它思考了将近一个小时。当它完成时,它想出了一个非常棒的主意,而我现在实际上正在采用这个方案。这个解决方案甚至考虑到了我没有明确提及的约束条件……它对问题_轮廓_的理解足够深刻,以至于填补了我留下的空白。
真的没有什么能比得上 GPT-5.2 Pro。
Pro 的思考方式有何不同(嗯……也许吧)
通过观察 Pro 的推理摘要(reasoning summaries),我注意到一件事:它使用代码的频率远超我的预期。不仅仅是用于编程任务,而是用于所有事情。
当我让它写一本书时,它使用代码来记录章节名称、章节长度和整体大纲。在开始写作之前,它以编程方式规划了整个结构,然后使用代码生成了最终的 PDF。
对于创意生成任务,当它在权衡一堆可能性时,它会将它们放入列表和数据结构中。它正在使用代码来组织其工作记忆(working memory)……记录它正在考虑的内容、每个选项满足哪些约束条件,以及存在哪些权衡(tradeoffs)。
我不知道以前的模型是否在内部也这样做而我们只是看不到,但推理摘要中显示的代码绝对比我以前看到的要多得多。也许 OpenAI 只是稍微提高了透明度。但这绝对是一个显著的差异,至少对我来说是这样。
当 Pro 失败时
Pro 并不完美。当它经过长时间思考后依然失败时,通常是因为它在某个地方做出了错误的假设,或者误解了部分问题。输出结果看起来很合理,但实际上并没有解决你的要求,或者解决了一个与你预期略有不同的问题。
这让人很恼火,特别是因为你投入了时间成本。偶尔,Pro 会思考 45 分钟然后失败,这会浪费大量的时间。但它的失败率比以前的模型要低,而且当你在处理难题时,一定的失败率是不可避免的。即使是人类有时也会做出错误的假设。
总的来说,Pro 成功的次数远多于失败的次数,而且比我用过的任何其他工具都要靠谱。
高效地向 Pro 提供提示词
因为 Pro 思考的时间很长,你绝对不想把提示词写错。在常规模型上让你损失 30 秒的错误,在 Pro 上会让你损失 30 分钟。因此,我采用了不同的方式来向 Pro 提供提示词。
首先:要极其清晰。在发送之前,花点时间真正思考一下你的提示词。你想实现什么目标?哪些约束条件很重要?成功的标准是什么?涵盖你需要涵盖的所有内容,因为你绝对不想在 Pro 思考了 20 分钟后,才意识到自己忘记了重要的事情。
第二:添加约束条件。这对所有推理模型都适用,但对 Pro 尤其如此。你对什么是成功……什么不是成功……定义得越具体,Pro 就越能集中精力进行思考。模糊的提示词会得到模糊的结果,受约束的提示词则会得到精确的解决方案。
当我不确定自己的提示词是否完整时,我会使用这样一个技巧:我首先将原始提示词发给 Claude Opus 4.5,然后问:“为了真正完成这项任务,你还需要我回答哪些后续问题吗?”Opus 会提出它的问题,我来回答,然后我说:“你能把这些作为上下文,更新我的原始提示词吗?”最后,再将完善后的提示词交给 Pro。
你也可以使用 GPT-5.2 Thinking 来进行这个提示词完善步骤,但它的速度较慢。在快速的来回交流方面,Opus 速度更快。
如果你想在这方面获得一些快速帮助,我在 shumerprompt.com 提供了一个 GPT-5.2 Pro 提示词构建器,它可以自动为你组装这些约束条件。
Pro 与其他所有模型的对比
我还没有发现任何一项任务是标准的 GPT-5.2 Thinking 胜过 Pro 的。这并不意味着 Thinking 不好。它是一个很好的模型,但如果你有 Pro 的访问权限,并且时间不是限制因素,Pro 就是更好的选择。
Claude Opus 4.5 有时会击败 Pro,但这只是各自优势不同的问题,而不是说其中一个在所有方面都绝对更好。我认为 Opus 在处理某些创意写作任务时表现更好。它的行文有一种我更偏爱的风格特质。对于快速、定义明确且我确切知道自己想要什么的代码更改,我略微偏好 Opus 4.5 编写的代码。这只是一个微小的风格偏好。
对于快速的资料检索,显然我不会使用 Pro,因为我不想为 20 秒就能得到的结果等上 20 分钟。但对于深度的研究,当我需要对某些事物进行深入、仔细的调研和思考时,Pro 则是我的首选。
在写作方面,Pro 也绝对比 GPT-5.2 Thinking 更胜一筹。Pro 在推理过程中的深思熟虑,会转化为更细腻、结构更严谨且信息密度更高的文字。
纯粹的行文质量仍然落后于 Claude Opus 4.5,但我通常还是会选择 5.2 Pro 来写作,因为它的推理更严密;即使措辞稍欠打磨,其论点也更清晰,论据也更充分。
相比 5.1 Pro 的改进
GPT-5.2 Pro 并不像是一个与 5.1 Pro 完全不同物种的模型。我无法指出有哪一点是_显著_更好的。它只是整体上更好了一些,并且在各个方面都更可靠了一点。
部分原因在于,我们正在触及人类在自身专业领域之外所能评估的极限。在编程方面,我能看出它更好了。但如果我问一个医学问题,我没有资格判断 5.2 Pro 是否比 5.1 Pro 更好……在那个领域,它们都比我聪明得多。
我认为它在各个方面大概提升了 15%(考虑到这只是不到一个月的进展,已经相当惊人了)。而且在需要时,它愿意花更长的时间去思考,这是一个巨大的优势。如果它在不需要的事情上思考过久,那会很烦人,但我经常发现它在大多数任务上的速度与 5.1 Pro 差不多……只是在极其困难的事情上,它才愿意花更长的时间。
每月 200 美元值得吗?
ChatGPT Pro 计划每月收费 200 美元,并为你提供基本上无限制的 Pro 查询次数。这是否值得,完全取决于你的工作方式。
对我来说,这根本毫无疑问。我已经离不开 GPT-5.2 Pro 了。我想都不用想就会每月为它支付 200 美元。我在日常工作中极度依赖它,其发挥的作用是其他工具难以替代的。
但我并非普通用户。我已经高强度使用这些模型很长一段时间了。我知道如何精准地向它们提供提示词。我已经将 AI 深度整合到我的工作流中,以至于我总能随时发现使用它的契机。我有些朋友在生活中遇到了 AI 完全可以帮忙解决的问题,但他们甚至都没想过要去用它。对于他们来说,Pro 可能并不值每月 200 美元。他们无法从中获得足够的价值。
如果你是深度使用 AI 的人,致力于解决复杂难题,已经学会了如何编写有效的提示词,并且能从现有的最强推理能力中获益,那么 Pro 是物有所值的。如果你仍在摸索如何将 AI 融入自己的工作,你可能需要先去熟悉标准版(而且要便宜得多)的订阅级别。
写在最后
GPT-5.2 Pro 比 5.1 Pro 大约提升了 15%……它算不上是全新一代的模型,但对于这个原本就是我最爱的系统而言,这是一次实质性的提升。当你在探索这些模型的能力极限时,这 15% 的提升至关重要。
Pro 的特别之处并不在于某项单一的能力。而在于它愿意根据问题的需要,花上足够长的时间去思考,再加上让我能够完全信任其输出结果的可靠性。当我把任务交给 Pro 然后去做午饭时,我是真心相信等我回来时,它给出的结果一定会很出色。
如果你一直对 Pro 订阅计划犹豫不决,而且在你的工作中,准确解决复杂难题比快速完成简单任务更重要,那么我鼓励你试一试。