GPT-5.2 评测：令人惊艳，但速度太慢

摘要

一句话总结

GPT-5.2 及其 Pro 版本在遵循复杂指令、长上下文处理和代码生成方面取得了显著进步，尤其适合深度推理和复杂编程任务，但在响应速度和部分空间生成能力上仍存在局限。

关键要点

指令遵循与任务执行：模型能完整执行复杂指令（如生成50个构思后再做选择，而非走捷径），并愿意尝试如构建200页书籍结构及 PDF 等高难度任务。
代码生成与自主性：能处理更大规模的任务并持续输出更多代码；在 Codex CLI 中表现出极高的自主性，会先收集上下文（提问、读取文件、探索代码库）再编写代码。
视觉与长上下文：视觉能力（特别是空间关系理解）显著提升；在处理大型代码库和海量数据时，长上下文的稳定性极佳。
Pro 模式的深度推理：Pro 版本具备极高的智能和深度思考意愿，能精准理解用户隐性需求（如在食谱测试中理解“没时间”意味着需要简化采购和备菜心智）。
提示词编写：擅长编写提示词并能预判边缘情况，该能力与 Claude Opus 4.5 相当，优于 Gemini 3 Pro。
多模型场景定位：日常快速问答首选 Claude Opus 4.5；深度研究与复杂推理首选 GPT-5.2 Pro；前端 UI 视觉设计 Gemini 3 Pro 最佳；复杂 Agent 编程任务首选 GPT-5.2。
界面与生态限制：OpenAI 的 Canvas 界面目前无法承载模型输出的大量代码；Pro 模式仅限 ChatGPT 界面可用，尚未接入 API 或 Codex CLI（开发者需借助 RepoPrompt 等工具绕过限制）。
输出风格：默认过度依赖项目符号（Bullet points），整体写作风格略逊于 Claude Opus 4.5，但已开始学会在面对简单问题时给出简明回答。

风险与不足

响应速度缓慢：标准 Thinking 模式和 Codex CLI 中的超高推理模式运行速度非常慢，导致其在日常快速任务中实用性不佳。
空间生成缺陷：尽管视觉理解有所提升，但在代码生成（如 Three.js 棒球场测试）中的空间感知和对象布局能力仍需大幅改进。
推理死循环（Quirks）：Pro 模式偶尔会在冲突的指令间陷入长时间的纠结，耗费数分钟思考后直接放弃任务或执行失败（OpenAI 已知晓此问题）。

正文

自11月25日以来，我就获得了GPT-5.2的访问权限。在经过两周的全面测试，涵盖编程、研究、创意写作和日常任务之后，我有_很多_想法。这篇评测涵盖了标准的GPT-5.2 Thinking模型以及GPT-5.2 Pro；不过我也写了一篇更深入的针对Pro版本的评测，因为那个模型值得单独写一篇文章。

简而言之：GPT-5.2向前迈出了有意义的一步，特别是在遵循复杂指令的能力，以及它真正_尝试_困难任务的意愿方面。Pro模式在GPT-5.1 Pro（这已经是我最喜欢的系统）的基础上进行了改进，在深度推理工作方面令人印象非常深刻。但也有一些值得了解的怪癖。

让我们一探究竟。

GPT-5.2 Thinking：直觉的提升

GPT-5.2最引人注目的地方在于它遵循指令的能力……不是那种基本的“按我说的做”，而是“真正完成我描述的整个任务”。

举个例子。在设置一个创意写作测试时，我要求它在为故事决定最佳情节之前，先想出50个情节构思。大多数模型会在这里走捷径。它们可能只会给你10个构思，挑一个，然后继续。GPT-5.2实际上在做出选择之前生成了全部50个构思。这听起来微不足道，但事实并非如此。当你进行创意工作或研究时，那额外的40个构思中可能就包含真正有趣的那个。模型相信这个过程而不是为了速度去优化，这一点很重要。

我进一步增加了难度。我要求它写一本200页的书。虽然这些页面本身内容单薄且简短……这并不是一个能一次性写出可出版小说的模型。但是，令人印象深刻的是，它确实尝试去做了，这比我能评价的其他模型要好得多。它构建了整本书的结构，甚至将其排版为PDF。大多数模型认为自己做不到，甚至连试都不试。它们会告诉你“那太长了”，或者给你一个大纲，并提议逐节完成。GPT-5.2只是……直接放手去做了。这种愿意尝试宏大任务的意愿，即使做得不完美，也开启了新的工作流。

代码生成：真正的进步

GPT-5.2中的代码生成相比之前的模型确实是一个真正的进步。它写出的代码更好，并且能够处理比以前更大的任务。但它仍然不完美。例如，我在Three.js动画上对它进行了测试，以对空间推理进行压力测试。我要求它构建一个棒球场场景，它生成了比大多数模型更逼真的样式（纹理/光照非常棒），但空间感知和物体放置仍然需要_大量_的改进。但抛开任何特定框架不谈，代码输出的整体质量有了显著提高。

图1：物体放置不正确的Three.js棒球场测试

Three.js棒球场测试：纹理/光照非常棒，但布局有偏差。

该模型还愿意编写比以前版本多得多的代码，并且能够不间断地工作更长时间。这是一项真正的能力提升。

关于代码生成的更多细节，请参见下方我的Codex CLI部分。

视觉与长上下文

5.2的视觉能力有了显著提升。在理解图像的能力上有了很大的不同……尤其是位置和空间关系（尽管空间生成仍在完善中）。这对于计算机操作智能体（computer-use agents）来说非常棒。

它在处理长上下文时也非常出色。处理庞大的代码库、大量数据和冗长的分析线程感觉比以前更稳定，这也是 GPT-5.2 在智能体编码工作流（agentic coding workflows）中表现如此出色的原因之一。

顺便提一句：模型变得如此强大，而 OpenAI 的 ChatGPT 界面却完全没有跟上，这实在有些荒谬。例如，ChatGPT 中的 Canvas 界面仍然无法处理大量代码……我最初在 Canvas 中尝试了我的 Three.js 测试，但模型输出的代码量超出了 Canvas 的处理能力。拜托，谁来让它变得合理一点吧！OpenAI 需要在这方面下点功夫了。

正如我在之前的评测中提到的，Pro 模式仍然只能在 ChatGPT 中使用……在 Codex CLI 中无法使用。这依然让我感到沮丧。如果你想在代码上使用 Pro 的推理能力，你就只能忍受 ChatGPT 界面的限制。我使用 RepoPrompt 来弥补这个差距……它提取我的本地代码库，将其转换为提示词（prompt），我将其粘贴到 5.2 Pro 中，然后当模型回复时，我再将其粘贴回 RepoPrompt，由它将更改应用到我的代码库中。这是一个额外的步骤，但它让我能在真实的代码库上获得 Pro 级别的推理能力。而且在代码方面，Pro 简直是个他妈的怪物……我在专门的 Pro 评测中对此有更多讨论。

风格

如果你用过 OpenAI 的模型，你就会知道它们有多喜欢用要点列表（bullet points）。GPT-5.2 延续了这一传统。让它解释一些东西，你通常会得到一个带有项目符号的列表，而实际上几个清晰的段落会表达得更好。如果你仔细编写提示词——明确要求使用流畅的文字，或者展示你想要的风格，你可以绕过这个问题。但那些只是随意输入提示词的普通用户，无论他们是否愿意，都会得到“要点列表”的待遇。

除了要点列表的问题，这次发布的版本在写作风格上有所改进。相比 GPT-5.1，它并没有大幅度的飞跃，但确实好了一些。

尽管如此，至少对我来说，它还是比 Claude Opus 4.5 逊色一筹。话虽如此，在处理繁重的写作任务时，我有时比 Opus 更倾向于使用 GPT-5.2 Pro，因为它思考得更深入；虽然文字可能稍微粗糙一些，但信息的清晰度和结构往往表现得更强。

积极的一面是，GPT-5.2 已经学会了在回复时何时该保持简洁。并非每个问题都需要 500 字的解释，而这个模型_有时_能意识到这一点。当我问一些简单的问题时，我偶尔会得到一个简单的答案。这种情况发生的频率仍然没有我希望的那么高……我希望这成为默认状态，而不是例外……但这已经是进步了。

如果你想要我用来让 GPT-5.2 保持简洁且不使用要点列表的自定义指令提示词，可以在这里获取：简洁回复风格提示词。

速度问题

有一件事影响了我的日常使用：标准的 GPT-5.2 Thinking 速度很慢。根据我的经验，对于大多数问题，甚至是很直接的问题，它都非常非常慢。话虽如此，我看到其他测试人员报告了不同的（好坏参半的）速度表现……在某些任务上更快，在其他任务上更慢。我几乎从不使用 Instant；Thinking 要好得多，而 Pro 更是强得离谱，但这意味我通常要付出速度上的代价。

在实践中，这意味着我极少使用 GPT-5.2 Thinking。我实际的工作流变成了：快速的问题交给 Claude Opus 4.5，而当需要深度推理时，我直接使用 GPT-5.2 Pro。标准的 Thinking 模型处于一个尴尬的中间地带……比 Opus 慢，又没有 Pro 完整的推理优势。

综合对比

我一直在同时使用 Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2，它们在我的工作流中已经确立了各自明确的定位。

对于快速提问：比如“X 的语法是什么”或“提醒我 Y 是怎么用的”这类问题，Claude Opus 4.5 胜出。它速度更快，也更切中要害。当我只需要直奔主题获取信息时，我就会用它。

对于研究任务和复杂推理，GPT-5.2 Pro 明显更胜一筹。当我需要从多个角度对某件事进行深入思考时，当任务需要处理大量上下文并进行仔细的综合分析时，Pro 的表现更为出色。

对于前端 UI 生成，GPT-5.2 的 Thinking 和 Pro 模式都比之前的 GPT 模型提升了一个台阶。但在这项工作上，它们都无法与 Gemini 3 Pro 媲美。这里有一个值得解释的微妙之处：Gemini 3 Pro 拥有最棒的风格感——它生成的 UI 很好看，审美选择非常出色。但它在布局和实际的前端工程方面不够可靠。因此，如果我需要能够准确无误运行并处理边缘情况的代码，我仍然会选择 Opus 或 GPT。如果我需要外观精美的界面，并且愿意自己动手修复工程问题，那么 Gemini 3 Pro 是目前最好的选择。

GPT-5.2 Pro：缓慢的天才

Pro 模式才是真正有趣的地方。这是 ChatGPT 内部的一个独立系统，正如我之前提到的，它仅在 ChatGPT 中可用，Codex CLI 中没有，API 中也没有，其他任何地方都不提供。

简而言之：Pro 聪明得离谱。Thinking 和 Pro 之间的智力差异显而易见。但除了纯粹的智力之外，让 Pro 脱颖而出的是它思考的意愿。在解决问题时，它花费的时间会比之前的 Pro 模型长得多。对于研究任务，如果任务有要求，它会花上长得离谱的时间去进行研究。

食谱测试

我来举一个具体的例子，很好地体现了 Pro 的优势。我让它帮忙制定膳食计划，并强调我没有时间做饭。我想要一份 7 天的计划，每天包含一日三餐和两顿零食。Pro 给出了非常棒的食谱计划，但最引人注目的是食材清单……比其他模型建议的要简单得多。它明白“我没有时间”不仅仅是对烹饪时间的限制；它同样限制了购物的复杂程度、备菜工作以及心理负担。它领会了我的心态，而不仅仅是字面上的要求。这着实令人震惊。我曾将相同的提示词发给了所有其他前沿模型，但没有一个考虑到这一点。

正是这种理解力让 Pro 显得与众不同。

提示词编写

GPT-5.2 非常擅长编写提示词……这不仅有助于充分发挥各类 AI 模型的潜力，对构建集成了 LLM 的软件也大有裨益。如果你正在开发使用语言模型的应用程序，让 GPT-5.2 帮你精心打磨提示词会非常有帮助。它编写的提示词非常周密，往往能预判到我根本想不到的边缘情况。在这方面，它与 Claude Opus 4.5 旗鼓相当，并且绝对完胜 Gemini 3 Pro。

Codex CLI

我在 Codex CLI 中对 GPT-5.2 进行了大量测试（Pro 模式从未在那里提供过……唉），而且越用越觉得惊艳。这是我在 CLI 环境中体验过的最接近 Pro 模型的表现。它一次性把事情做对的概率，比我用过的任何其他模型都要高得多。唯一的问题是，我只能使用它的超高推理模式（extra-high reasoning mode），这可能会耗费极其漫长的时间……通常比 Pro 还要久，这挺让人抓狂的。

自主性相比之前的模型有了显著提升。但真正的区别在于它处理上下文收集的方式。Claude Opus 4.5 倾向于在完全理解问题之前就开始编写代码。它会做出假设，开始实现，然后因为没有掌握所需的所有上下文而遇到问题（我知道其他人在这一点上有不同或更好的体验，但这是我的亲身经历）。GPT-5.2 不会这样。它会提问。它会读取文件。它会探索代码库。它会_首先_收集上下文，然后再编写代码。

这改善了我的工作流。这些模型一直在稳步改进，随着时间的推移，我检查它们工作的次数也越来越少。但 GPT-5.2 让人感觉是一个显著的飞跃。除非任务至关重要——比如生产环境代码，否则我通常只是让它自己运行，而不会去审查每一个更改。

关于一些小毛病的说明

我确实在 Pro 模式下遇到了一些奇怪的行为，它似乎陷入了相互冲突的指令之间……花了整整几分钟时间权衡，然后把一个简单的任务踢回给我，而不是直接去完成它。偶尔，它会思考很长时间，但最终还是失败了，这非常令人恼火，而且浪费了大量时间。OpenAI 已经意识到了这个问题并正在调查。这并非致命缺陷，但需要了解的是，这些推理模型偶尔会陷入奇怪的死循环中。

图片 2：GPT-5.2 Pro 陷入冲突指令的示例

Pro 模式的推理摘要陷入了开发者/用户冲突的指令之间。

何时使用哪个模型

经过两周的测试，以下是我的实用分类建议：

对于快速提问和日常任务，Claude Opus 4.5 依然是我的首选。它速度快、准确率高，而且不浪费我的时间。当我只需要一个答案时，我会从它开始。

对于深度研究、复杂推理以及需要缜密思考的任务，GPT-5.2 Pro 是目前可用的最佳选择。对于那些“做对”比“做得快”更重要的任务来说，速度上的牺牲是值得的。

对于前端样式和美观的 UI 工作，Gemini 3 Pro 目前能生成最漂亮的结果。只是要做好事后进行一些工程代码清理的准备。

对于在 Codex CLI 中进行的严肃编程工作，GPT-5.2 表现出色。其收集上下文的行为和可靠性使其成为我处理代理式编程任务（agentic coding tasks）的默认选择。

总结

GPT-5.2 是一次真正的进步。其遵循指令的能力有了显著提升。Pro 模式的智能和可靠性令人印象深刻。对于需要缜密推理的复杂任务，这是我用过的最好的模型。

标准 Thinking 模型（思考模型）的速度让我无法在日常中频繁使用它。我最终会用 4.5 Opus 处理快速任务，用 Pro 处理深度工作。但在 GPT-5.2 擅长的任务上，它确实大放异彩。

我专门撰写的 Pro 模式深度解析在这里。如果你还在犹豫是否要尝试它：答案是肯定的，特别是当你的工作涉及研究、复杂推理或编程时。

wsl-docs

探索