智能体时代的 AI 使用指南

摘要

1) 一句话总结

随着 AI 从聊天机器人向自主执行任务的智能体（Agent）演进，用户在选择和使用 AI 时需综合考量模型、应用与控制套件，并通过手动选择高级付费模型来管理 AI 完成实际工作。

2) 核心要点

范式转变：AI 的使用已从单纯的问答对话，转向为智能体（Agent）分配任务并由其自主使用工具完成。
三大核心要素：AI 系统现在由决定智力水平的模型（如 GPT-5.2、Claude Opus 4.6）、用户交互的应用（如网页端、Claude Code），以及赋予 AI 行动和工具使用能力的控制套件（Harnesses）组成。
付费与模型选择：严肃使用 AI 每月需支付约 20 美元。处理实际工作时，必须手动选择高级模型（如 GPT-5.2 Thinking Extended/Pro、Gemini 3 Pro、开启扩展思考的 Claude Opus 4.6），默认模型通常无法胜任复杂任务。
主流应用差异：ChatGPT 和 Claude 在控制套件上领先，支持代码执行、广泛研究以及直接输出带引用的电子表格和 PPT；Gemini 则捆绑了领先的图像（nano banana）和视频（Veo 3.1）生成工具。
编程与开发工具：Claude Code、OpenAI Codex 和 Google Antigravity 等工具允许 AI 访问代码库和终端，实现从零开始的自主编程、建站和测试。
办公与知识工具：出现了如 Claude for Excel（直接在表格内处理数据）、Claude Cowork（在隔离虚拟机中操作本地文件和浏览器的桌面智能体）以及 Google NotebookLM（处理海量信息并生成交互式知识库或播客）等专用工具。
交互方式升级：用户与 AI 的协作模式已从单纯的“提示（prompting）”转变为“管理（managing）”，核心在于分配任务、提供真实文档并在执行中纠偏。

3) 风险与不足（基于原文明确提及）

本地智能体安全风险：本地开源智能体 OpenClaw 存在严重的安全风险，因为它需要获取对用户电脑和账户的广泛访问权限。
免费模型的准确性缺陷：免费模型主要为聊天速度和趣味性优化，而非准确性，使用免费模型处理复杂任务是导致 AI 犯错和表现愚蠢的主要原因。
Gemini 的功能缺失：尽管底层模型优秀，但 Google Gemini 网站目前受限于控制套件，无法生成电子表格和 PPT，也不提供引用或研究功能。
Claude 的多媒体短板：Claude 模型在图像和视频生成能力方面存在欠缺。

正文

自从 ChatGPT 问世以来，关于“如何选择 AI”的指南我已经写过八版。但这一次的版本与过去截然不同，因为“使用 AI”的含义已经发生了翻天覆地的变化。

直到几个月前，对绝大多数人来说，“使用 AI”还仅仅意味着与聊天机器人进行一问一答的对话。但在过去的几个月里，将 AI 作为**智能体（Agent）**来使用已经成为现实：你可以给它们分配任务，它们会适当地使用工具来完成这些任务。

因为这种转变，现在选择 AI 时，你必须考虑三个核心要素：模型（Models）、应用（Apps）和控制套件（Harnesses）。

AI 系统的三大核心要素

模型（Models）： 这是 AI 的底层大脑。目前的三巨头是 GPT-5.2/5.3、Claude Opus 4.6 和 Gemini 3 Pro（各公司发布新模型的速度比以往快得多，因此版本号在未来几周可能会变动）。模型决定了系统的智力水平、推理能力、写代码或分析表格的能力，以及视觉和图像生成能力。当人们说“Claude 更擅长写作”或“ChatGPT 更擅长数学”时，他们谈论的就是模型。
应用（Apps）： 这是你实际用来与模型对话、让模型为你工作的具体产品。最常见的应用是这些模型的官方网站（如 chatgpt.com、claude.ai、gemini.google.com）或手机 App。此外，各家公司也推出了越来越多的其他应用，比如编程工具（OpenAI Codex、Claude Code）和桌面工具（Claude Cowork）。
控制套件（Harnesses）： 它是让 AI 模型发挥实际作用的系统，就像马具将马的原始力量转化为拉车或犁地的能力一样。控制套件允许 AI 自主使用工具、采取行动并完成多步任务。
- 应用本身自带套件。例如，Claude 网页版的套件允许 Claude 4.6 Opus 进行网络搜索和编写代码，并包含如何处理电子表格或图形设计等问题的指令。
- Claude Code 拥有更强大的套件：它为 Claude 4.6 Opus 提供了一台虚拟电脑、一个网络浏览器和一个代码终端，让它能从零开始研究、构建和测试新网站。
- Manus（最近被 Meta 收购）本质上是一个可以封装多个模型的独立套件。
- 最近备受瞩目的 OpenClaw 则主要是一个允许你在本地电脑上使用任何 AI 模型的套件。

以前，你不需要了解这些。模型就是产品，应用就是网站，而套件几乎不存在——你打字，它回复，你再打字。但现在，同一个模型在不同的控制套件下，表现会截然不同。在聊天窗口中与你对话的 Claude Opus 4.6，和在 Claude Code 中连续数小时自主编写和测试软件的 Claude Opus 4.6，体验完全不同；回答问题的 GPT-5.2，和在后台浏览网页并为你制作幻灯片的 GPT-5.2 Thinking，也是两码事。

因此，“我该用哪个 AI？”这个问题变得更难回答了，因为答案取决于你想用它做什么。

当前的模型格局

目前顶尖模型在整体能力上非常接近，它们比以往任何时候都更“聪明”，犯的错误也更少。但是，如果你想认真地使用高级 AI，你每月至少需要支付 20 美元（部分地区可能有更便宜的替代方案）。

这 20 美元能为你带来两样东西：选择使用哪个模型的权利，以及使用更高级的前沿模型和应用的能力。免费模型虽然速度快且聊天体验有趣，但它们是为聊天而非准确性优化的，能力远不及付费模型。很多时候，人们抱怨 AI 做了蠢事，往往是因为他们使用的是免费模型，或者没有手动选择更聪明的模型。

当前的三大前沿模型是：Anthropic 的 Claude Opus 4.6、Google 的 Gemini 3.0 Pro 和 OpenAI 的 ChatGPT 5.2 Thinking。无论选择哪一个，你都能获得顶级的 AI 模型，支持语音模式、视觉和文档读取、代码执行、优秀的移动端 App 以及图像/视频生成能力（不过 Claude 在图像/视频方面有所欠缺）。它们各有优劣和性格，对大多数人来说，选一个自己最喜欢的就足够了。

最重要的一点：手动选择正确的模型。

AI 公司通常不会让选择模型变得直观。如果你只是闲聊，默认模型就够了；但如果要处理实际工作，默认模型绝对不行。

ChatGPT： 无论免费还是付费，默认给你的都是“ChatGPT 5.2”。但这其实是一个包含从极弱的 mini 版到极强的 Pro 版的集合。默认的“自动”模式往往会调用较弱的模型。对于复杂任务，请务必手动选择 GPT-5.2 Thinking Extended（20美元套餐）或 GPT-5.2 Thinking Heavy（更高级套餐）。对于需要大量思考的极难问题，可以选择成本更高的最强模型 GPT-5.2 Pro。
Gemini： 有三个选项：Flash、Thinking 和 Pro（部分付费计划）。Ultra 计划还在另一个菜单中提供了用于解决极难问题的 Deep Think。处理严肃问题时，请始终选择 Gemini 3 Pro 或 Thinking。
Claude： 你需要选择 Opus 4.6（新的 Sonnet 4.6 虽然强大但仍略逊一筹），并打开“扩展思考（extended thinking）”开关。

对于大多数人来说，模型之间的差异已经足够小，现在应用和控制套件比模型本身更重要。

聊天机器人界面（Chatbot Interfaces）

绝大多数人仍然通过 ChatGPT、Claude 和 Gemini 的主网站或手机 App 来访问 AI。在过去几个月里，这些聊天机器人应用在功能捆绑上出现了显著差异：

Gemini： 捆绑了 nano banana（目前最好的 AI 图像生成工具）、Veo 3.1（领先的 AI 视频生成工具）、Guided Learning（引导式学习，让 AI 扮演导师）以及深度研究（Deep Research）。
ChatGPT： 捆绑了图像生成（几乎和 nano banana 一样好，但无法在聊天中调用 Sora 视频生成）、Study and Learn（类似 Gemini 的引导学习，但多了一个独立的测验生成器）、深度研究（Deep Research）和购物研究（Shopping Research，出乎意料地好用且常被忽视）。
Claude： 仅捆绑了深度研究（Deep Research），但你可以通过创建“项目（Project）”并选择学习项目来进入学习模式。
数据连接： 所有 AI 模型都允许你连接数据（如读取邮件、日历、访问文件或连接其他应用），这能让 AI 变得极其有用，但各家的连接器种类各不相同。

对于处理实际工作的人来说，最重要的附加功能是深度研究和数据连接。然而，真正拉开差距的是控制套件（AI 能访问的工具）。

在这方面，OpenAI 和 Anthropic 明显领先于 Google。Claude.ai 和 ChatGPT 都能编写和执行代码、生成文件、进行广泛的研究，并能直接输出带有清晰引用的电子表格和 PPT。而 Google 的 Gemini 网站目前还无法生成这两种文档，也不提供引用或研究（尽管其底层模型同样优秀，但我预计 Google 很快会赶上）。

注：GPT-5.2 Pro 配合其自带的套件是一个极其聪明的模型（最近刚协助推导出了一个物理学新成果），非常适合复杂的统计和分析工作。Google Gemini 3 Deep Think 似乎也同样强大，但目前受限于其较弱的控制套件。

其他应用与控制套件

聊天机器人网站是大多数人接触 AI 的地方，但最令人惊叹的工作往往是在其他地方完成的。越来越多的新应用将这些强大的模型封装在更强大的控制套件中。

编程与开发工具

Claude Code、OpenAI Codex 和 Google Antigravity 是目前最成熟的工具，主要面向程序员。它们赋予 AI 访问你的代码库和终端的权限，让 AI 能够自主编写、运行和测试代码。你只需描述需求，AI 就会去构建，完成后或卡住时再来找你。

即使你不懂编程，这些工具也能发挥巨大作用。例如，我曾想把 GPT-1 的所有内部权重和参数（1.17亿个数字）印成一套实体书。一周前，我让 Claude Code 帮我做这件事。在大概一个小时内（主要都是 AI 在工作，我只提了几个建议），它排版了 80 卷精美的书籍，设计了将内部权重可视化的封面，搭建了一个优雅的网站，接入了 Stripe 支付和 Lulu 按需打印服务，测试了整个流程并帮我上线。我全程没有碰过一行代码。我以成本价上架了 20 套，当天就售罄了。

办公与知识工作工具

Claude for Excel / Powerpoint： 这是应用程序内部特定套件的代表。Claude for Excel 彻底改变了处理电子表格的方式，它就像一个初级分析师，你告诉它想做什么，它就帮你完成，而且因为结果直接在 Excel 中，检查起来非常方便。Google 在 Sheets 中有一定程度的集成，而 OpenAI 目前没有同类产品。
Claude Cowork： 这是一个全新的类别，本质上是面向非技术工作的 Claude Code。它在你的桌面上运行，可以直接操作本地文件和浏览器。它非常安全（在带有默认拒绝网络和硬隔离的虚拟机中运行）。你只需描述结果（例如：整理这些报销单，将这些 PDF 中的数据提取到表格中，起草一份摘要），Claude 就会制定计划、拆分任务，并在你的电脑上执行。这代表了未来的发展方向：AI 不再只是和你“谈论”工作，而是直接“做”你的工作。
NotebookLM (Google)： 专门解决“如何利用 AI 理解海量信息”的问题。你可以让它进行深度研究，或者上传论文、YouTube 视频、网站或文件。它会构建一个交互式知识库，你可以向它提问，或者将其转化为幻灯片、思维导图、视频，甚至是广受欢迎的“AI 生成播客”（两名 AI 主持人讨论你的材料，你甚至可以打断他们提问）。对于学生和研究人员来说，这是一个极其有用的工具。

本地智能体

OpenClaw： 这是一个在 1 月下旬爆火的开源 AI 智能体。它在你的本地电脑上运行，连接到你选择的任何 AI 模型。你可以像在 WhatsApp 上聊天一样与它交流。它可以浏览网页、管理文件、发送邮件和运行命令，就像一个 24/7 驻留在你机器上的私人助手。但请注意：它存在严重的安全风险，因为你赋予了 AI 对电脑和账户的广泛访问权限。尽管如此，它确实预示了技术的发展方向。

现在该怎么做？

信息量很大，让我们简化一下行动步骤：

如果你刚刚起步： 在三大系统（ChatGPT、Claude 或 Gemini）中选择一个，支付 20 美元，并选择高级模型。将 AI 引入你所做的每一件事中。上传你正在处理的真实文档，给 AI 分配复杂的任务（如起草 RFP 或 SOP），与它进行多轮对话并不断挑战它的极限。仅仅这样做，学到的东西就比看任何指南都多。
如果你已经熟悉聊天机器人： 尝试使用特定的应用。NotebookLM 免费且易用，是个很好的起点。如果你想深入，Anthropic 提供了最强大的工具包：Claude Code、Claude Cowork（均可通过 Claude Desktop 访问）以及专门的 PowerPoint 和 Excel 插件。用你真正需要完成的工作去测试它们，观察它的行为，在它出错时纠正它。记住，你不再是在“提示（prompting）” AI，而是在“管理（managing）” AI。

从聊天机器人到智能体（Agent）的转变，是自 ChatGPT 发布以来人们使用 AI 方式的最重要变革。虽然现在还处于早期阶段，这些工具仍在摸索中，有时也会做出令人费解的事情。但是，一个能“做事”的 AI，从根本上比一个只会“说话”的 AI 更有价值。学会以这种全新的方式使用 AI，绝对值得你投入时间。

wsl-docs

探索