摘要
1) 一句话总结
随着 AI 从聊天机器人向自主执行任务的智能体(Agent)演进,用户在选择和使用 AI 时需综合考量模型、应用与控制套件,并通过手动选择高级付费模型来管理 AI 完成实际工作。
2) 核心要点
- 范式转变:AI 的使用已从单纯的问答对话,转向为智能体(Agent)分配任务并由其自主使用工具完成。
- 三大核心要素:AI 系统现在由决定智力水平的模型(如 GPT-5.2、Claude Opus 4.6)、用户交互的应用(如网页端、Claude Code),以及赋予 AI 行动和工具使用能力的控制套件(Harnesses)组成。
- 付费与模型选择:严肃使用 AI 每月需支付约 20 美元。处理实际工作时,必须手动选择高级模型(如 GPT-5.2 Thinking Extended/Pro、Gemini 3 Pro、开启扩展思考的 Claude Opus 4.6),默认模型通常无法胜任复杂任务。
- 主流应用差异:ChatGPT 和 Claude 在控制套件上领先,支持代码执行、广泛研究以及直接输出带引用的电子表格和 PPT;Gemini 则捆绑了领先的图像(nano banana)和视频(Veo 3.1)生成工具。
- 编程与开发工具:Claude Code、OpenAI Codex 和 Google Antigravity 等工具允许 AI 访问代码库和终端,实现从零开始的自主编程、建站和测试。
- 办公与知识工具:出现了如 Claude for Excel(直接在表格内处理数据)、Claude Cowork(在隔离虚拟机中操作本地文件和浏览器的桌面智能体)以及 Google NotebookLM(处理海量信息并生成交互式知识库或播客)等专用工具。
- 交互方式升级:用户与 AI 的协作模式已从单纯的“提示(prompting)”转变为“管理(managing)”,核心在于分配任务、提供真实文档并在执行中纠偏。
3) 风险与不足(基于原文明确提及)
- 本地智能体安全风险:本地开源智能体 OpenClaw 存在严重的安全风险,因为它需要获取对用户电脑和账户的广泛访问权限。
- 免费模型的准确性缺陷:免费模型主要为聊天速度和趣味性优化,而非准确性,使用免费模型处理复杂任务是导致 AI 犯错和表现愚蠢的主要原因。
- Gemini 的功能缺失:尽管底层模型优秀,但 Google Gemini 网站目前受限于控制套件,无法生成电子表格和 PPT,也不提供引用或研究功能。
- Claude 的多媒体短板:Claude 模型在图像和视频生成能力方面存在欠缺。
正文
自从 ChatGPT 问世以来,关于“如何选择 AI”的指南我已经写过八版。但这一次的版本与过去截然不同,因为“使用 AI”的含义已经发生了翻天覆地的变化。
直到几个月前,对绝大多数人来说,“使用 AI”还仅仅意味着与聊天机器人进行一问一答的对话。但在过去的几个月里,将 AI 作为**智能体(Agent)**来使用已经成为现实:你可以给它们分配任务,它们会适当地使用工具来完成这些任务。
因为这种转变,现在选择 AI 时,你必须考虑三个核心要素:模型(Models)、应用(Apps)和控制套件(Harnesses)。
AI 系统的三大核心要素
- 模型(Models): 这是 AI 的底层大脑。目前的三巨头是 GPT-5.2/5.3、Claude Opus 4.6 和 Gemini 3 Pro(各公司发布新模型的速度比以往快得多,因此版本号在未来几周可能会变动)。模型决定了系统的智力水平、推理能力、写代码或分析表格的能力,以及视觉和图像生成能力。当人们说“Claude 更擅长写作”或“ChatGPT 更擅长数学”时,他们谈论的就是模型。
- 应用(Apps): 这是你实际用来与模型对话、让模型为你工作的具体产品。最常见的应用是这些模型的官方网站(如 chatgpt.com、claude.ai、gemini.google.com)或手机 App。此外,各家公司也推出了越来越多的其他应用,比如编程工具(OpenAI Codex、Claude Code)和桌面工具(Claude Cowork)。
- 控制套件(Harnesses): 它是让 AI 模型发挥实际作用的系统,就像马具将马的原始力量转化为拉车或犁地的能力一样。控制套件允许 AI 自主使用工具、采取行动并完成多步任务。
- 应用本身自带套件。例如,Claude 网页版的套件允许 Claude 4.6 Opus 进行网络搜索和编写代码,并包含如何处理电子表格或图形设计等问题的指令。
- Claude Code 拥有更强大的套件:它为 Claude 4.6 Opus 提供了一台虚拟电脑、一个网络浏览器和一个代码终端,让它能从零开始研究、构建和测试新网站。
- Manus(最近被 Meta 收购)本质上是一个可以封装多个模型的独立套件。
- 最近备受瞩目的 OpenClaw 则主要是一个允许你在本地电脑上使用任何 AI 模型的套件。
以前,你不需要了解这些。模型就是产品,应用就是网站,而套件几乎不存在——你打字,它回复,你再打字。但现在,同一个模型在不同的控制套件下,表现会截然不同。在聊天窗口中与你对话的 Claude Opus 4.6,和在 Claude Code 中连续数小时自主编写和测试软件的 Claude Opus 4.6,体验完全不同;回答问题的 GPT-5.2,和在后台浏览网页并为你制作幻灯片的 GPT-5.2 Thinking,也是两码事。
因此,“我该用哪个 AI?”这个问题变得更难回答了,因为答案取决于你想用它做什么。
当前的模型格局
目前顶尖模型在整体能力上非常接近,它们比以往任何时候都更“聪明”,犯的错误也更少。但是,如果你想认真地使用高级 AI,你每月至少需要支付 20 美元(部分地区可能有更便宜的替代方案)。
这 20 美元能为你带来两样东西:选择使用哪个模型的权利,以及使用更高级的前沿模型和应用的能力。免费模型虽然速度快且聊天体验有趣,但它们是为聊天而非准确性优化的,能力远不及付费模型。很多时候,人们抱怨 AI 做了蠢事,往往是因为他们使用的是免费模型,或者没有手动选择更聪明的模型。
当前的三大前沿模型是:Anthropic 的 Claude Opus 4.6、Google 的 Gemini 3.0 Pro 和 OpenAI 的 ChatGPT 5.2 Thinking。无论选择哪一个,你都能获得顶级的 AI 模型,支持语音模式、视觉和文档读取、代码执行、优秀的移动端 App 以及图像/视频生成能力(不过 Claude 在图像/视频方面有所欠缺)。它们各有优劣和性格,对大多数人来说,选一个自己最喜欢的就足够了。
最重要的一点:手动选择正确的模型。
AI 公司通常不会让选择模型变得直观。如果你只是闲聊,默认模型就够了;但如果要处理实际工作,默认模型绝对不行。
- ChatGPT: 无论免费还是付费,默认给你的都是“ChatGPT 5.2”。但这其实是一个包含从极弱的 mini 版到极强的 Pro 版的集合。默认的“自动”模式往往会调用较弱的模型。对于复杂任务,请务必手动选择 GPT-5.2 Thinking Extended(20美元套餐)或 GPT-5.2 Thinking Heavy(更高级套餐)。对于需要大量思考的极难问题,可以选择成本更高的最强模型 GPT-5.2 Pro。
- Gemini: 有三个选项:Flash、Thinking 和 Pro(部分付费计划)。Ultra 计划还在另一个菜单中提供了用于解决极难问题的 Deep Think。处理严肃问题时,请始终选择 Gemini 3 Pro 或 Thinking。
- Claude: 你需要选择 Opus 4.6(新的 Sonnet 4.6 虽然强大但仍略逊一筹),并打开“扩展思考(extended thinking)”开关。
对于大多数人来说,模型之间的差异已经足够小,现在应用和控制套件比模型本身更重要。
聊天机器人界面(Chatbot Interfaces)
绝大多数人仍然通过 ChatGPT、Claude 和 Gemini 的主网站或手机 App 来访问 AI。在过去几个月里,这些聊天机器人应用在功能捆绑上出现了显著差异:
- Gemini: 捆绑了 nano banana(目前最好的 AI 图像生成工具)、Veo 3.1(领先的 AI 视频生成工具)、Guided Learning(引导式学习,让 AI 扮演导师)以及深度研究(Deep Research)。
- ChatGPT: 捆绑了图像生成(几乎和 nano banana 一样好,但无法在聊天中调用 Sora 视频生成)、Study and Learn(类似 Gemini 的引导学习,但多了一个独立的测验生成器)、深度研究(Deep Research)和购物研究(Shopping Research,出乎意料地好用且常被忽视)。
- Claude: 仅捆绑了深度研究(Deep Research),但你可以通过创建“项目(Project)”并选择学习项目来进入学习模式。
- 数据连接: 所有 AI 模型都允许你连接数据(如读取邮件、日历、访问文件或连接其他应用),这能让 AI 变得极其有用,但各家的连接器种类各不相同。
对于处理实际工作的人来说,最重要的附加功能是深度研究和数据连接。然而,真正拉开差距的是控制套件(AI 能访问的工具)。
在这方面,OpenAI 和 Anthropic 明显领先于 Google。Claude.ai 和 ChatGPT 都能编写和执行代码、生成文件、进行广泛的研究,并能直接输出带有清晰引用的电子表格和 PPT。而 Google 的 Gemini 网站目前还无法生成这两种文档,也不提供引用或研究(尽管其底层模型同样优秀,但我预计 Google 很快会赶上)。
注:GPT-5.2 Pro 配合其自带的套件是一个极其聪明的模型(最近刚协助推导出了一个物理学新成果),非常适合复杂的统计和分析工作。Google Gemini 3 Deep Think 似乎也同样强大,但目前受限于其较弱的控制套件。
其他应用与控制套件
聊天机器人网站是大多数人接触 AI 的地方,但最令人惊叹的工作往往是在其他地方完成的。越来越多的新应用将这些强大的模型封装在更强大的控制套件中。
编程与开发工具
Claude Code、OpenAI Codex 和 Google Antigravity 是目前最成熟的工具,主要面向程序员。它们赋予 AI 访问你的代码库和终端的权限,让 AI 能够自主编写、运行和测试代码。你只需描述需求,AI 就会去构建,完成后或卡住时再来找你。
即使你不懂编程,这些工具也能发挥巨大作用。例如,我曾想把 GPT-1 的所有内部权重和参数(1.17亿个数字)印成一套实体书。一周前,我让 Claude Code 帮我做这件事。在大概一个小时内(主要都是 AI 在工作,我只提了几个建议),它排版了 80 卷精美的书籍,设计了将内部权重可视化的封面,搭建了一个优雅的网站,接入了 Stripe 支付和 Lulu 按需打印服务,测试了整个流程并帮我上线。我全程没有碰过一行代码。我以成本价上架了 20 套,当天就售罄了。
办公与知识工作工具
- Claude for Excel / Powerpoint: 这是应用程序内部特定套件的代表。Claude for Excel 彻底改变了处理电子表格的方式,它就像一个初级分析师,你告诉它想做什么,它就帮你完成,而且因为结果直接在 Excel 中,检查起来非常方便。Google 在 Sheets 中有一定程度的集成,而 OpenAI 目前没有同类产品。
- Claude Cowork: 这是一个全新的类别,本质上是面向非技术工作的 Claude Code。它在你的桌面上运行,可以直接操作本地文件和浏览器。它非常安全(在带有默认拒绝网络和硬隔离的虚拟机中运行)。你只需描述结果(例如:整理这些报销单,将这些 PDF 中的数据提取到表格中,起草一份摘要),Claude 就会制定计划、拆分任务,并在你的电脑上执行。这代表了未来的发展方向:AI 不再只是和你“谈论”工作,而是直接“做”你的工作。
- NotebookLM (Google): 专门解决“如何利用 AI 理解海量信息”的问题。你可以让它进行深度研究,或者上传论文、YouTube 视频、网站或文件。它会构建一个交互式知识库,你可以向它提问,或者将其转化为幻灯片、思维导图、视频,甚至是广受欢迎的“AI 生成播客”(两名 AI 主持人讨论你的材料,你甚至可以打断他们提问)。对于学生和研究人员来说,这是一个极其有用的工具。
本地智能体
- OpenClaw: 这是一个在 1 月下旬爆火的开源 AI 智能体。它在你的本地电脑上运行,连接到你选择的任何 AI 模型。你可以像在 WhatsApp 上聊天一样与它交流。它可以浏览网页、管理文件、发送邮件和运行命令,就像一个 24/7 驻留在你机器上的私人助手。但请注意:它存在严重的安全风险,因为你赋予了 AI 对电脑和账户的广泛访问权限。尽管如此,它确实预示了技术的发展方向。
现在该怎么做?
信息量很大,让我们简化一下行动步骤:
- 如果你刚刚起步: 在三大系统(ChatGPT、Claude 或 Gemini)中选择一个,支付 20 美元,并选择高级模型。将 AI 引入你所做的每一件事中。上传你正在处理的真实文档,给 AI 分配复杂的任务(如起草 RFP 或 SOP),与它进行多轮对话并不断挑战它的极限。仅仅这样做,学到的东西就比看任何指南都多。
- 如果你已经熟悉聊天机器人: 尝试使用特定的应用。NotebookLM 免费且易用,是个很好的起点。如果你想深入,Anthropic 提供了最强大的工具包:Claude Code、Claude Cowork(均可通过 Claude Desktop 访问)以及专门的 PowerPoint 和 Excel 插件。用你真正需要完成的工作去测试它们,观察它的行为,在它出错时纠正它。记住,你不再是在“提示(prompting)” AI,而是在“管理(managing)” AI。
从聊天机器人到智能体(Agent)的转变,是自 ChatGPT 发布以来人们使用 AI 方式的最重要变革。虽然现在还处于早期阶段,这些工具仍在摸索中,有时也会做出令人费解的事情。但是,一个能“做事”的 AI,从根本上比一个只会“说话”的 AI 更有价值。学会以这种全新的方式使用 AI,绝对值得你投入时间。