摘要

1) 一句话摘要

在代理型 AI 时代,传统的管理能力和专业领域知识已成为指导 AI 高效完成任务的核心技能,因为决定 AI 产出价值的关键已从“执行能力”转变为“知道该提出什么要求”并进行有效委派。

2) 核心要点

  • 实验验证效率飞跃:宾夕法尼亚大学的 EMBA 学生(几乎无编程经验)利用 Claude、ChatGPT 等 AI 工具,在 4 天内完成了过去需要一整个学期才能完成的初创公司原型构建与市场分析。
  • 降低试错成本:AI 大幅降低了初创项目转型的成本,使得同时探索多个商业方向和可能性变得更加容易。
  • 代理型工作核心方程式:决定是否将任务委派给 AI 取决于三个变量的权衡:人类基准时间(自己做所需时间)、成功概率(AI 做对的几率)以及 AI 处理时间(提示、等待和人工评估的时间)。
  • 具体时间节省数据:参考 OpenAI 的《GDPval》研究,在人类专家耗时 7 小时的任务中,GPT-5.2 有 72% 的概率打平或击败人类;扣除 1 小时的人工评估时间,平均每项任务可节省 3 小时。
  • “委派”即新型提示词:提升 AI 产出质量需要三步:提供更好的指令、提升评估和反馈能力、简化评估流程。这三点均高度依赖使用者的专业领域知识
  • 传统管理文档的复用:各行业的传统文档(如软件 PRD、导演镜头清单、军事五段式命令等)本质上是极佳的 AI 提示词,因为它们明确了目标、权限边界、完成标准和中期交付物。
  • 工作模式的转变:顶尖软件开发者的工作已开始从“主要写代码”转变为“主要管理 AI 智能体”,这种趋势将蔓延至其他行业。
  • 稀缺资源的转移:传统管理学建立在“人才稀缺且昂贵”的假设上;AI 时代“执行人才”变得丰富且廉价,真正的稀缺资源变成了“知道什么是好结果并能清晰表达需求”的能力。

3) 风险与不足

  • AI 能力的参差不齐(Jagged Frontier):在处理复杂任务时,使用者无法准确预知 AI 擅长什么、不擅长什么。
  • 时间沉没成本风险:如果 AI 任务失败(产出不达标),由于前期已经投入了编写提示词和审查的时间,最终耗费的总时间会比人类直接完成该任务还要长。
  • 缺乏成熟的指导框架:目前业界尚未形成完善的框架来指导如何系统性地使用这些 AI 工具,使用者很大程度上仍需依靠自身经验自行摸索。
  • 产出成熟度限制:尽管 AI 能在极短时间内加速创意和原型生成,但短期内生成的成果(除少数例外)通常还不是完全可运营的产品或真正运作的公司。

正文

在代理型 AI 世界中脱颖而出

我刚刚在宾夕法尼亚大学教授了一门实验性课程,要求学生们在四天内从零开始创立一家初创公司。班上的大多数人都在攻读高级管理人员工商管理硕士(EMBA)项目,他们一边上课,一边在各类大小企业中担任医生、经理或领导者。他们中几乎没人写过代码。

我向他们介绍了 Claude Code 和 Google Antigravity,他们需要使用这些工具来构建一个可运行的产品原型。但仅仅有一个原型还算不上是一家初创公司,因此他们还使用了 ChatGPT、Claude 和 Gemini 来加速创意生成、市场调研、竞争定位、商业路演以及财务建模的过程。我很好奇他们在这么短的时间内能走多远。事实证明,他们走得非常远。

我教授创业学已经有十五年了,见过成千上万个创业想法(其中一些后来成为了大公司),所以我对一群聪明的 MBA 学生能达到什么水平有很好的预期。据我估计,我在短短几天内看到的成果,比在 AI 出现之前学生们花一整个学期做出的成果,在走向真正初创公司的道路上要远出一个数量级。

大多数原型不仅仅是示例界面,而是真正具备了可运行的核心功能。他们的想法比以往更加多样和有趣,市场和客户分析也非常深刻,这确实令人印象深刻。虽然这些还不是真正运作的初创公司,也不是完全可运营的产品(除了少数例外),但他们已经从传统流程中节省了数月的时间以及大量的金钱和精力。

此外还有一点:大多数早期初创公司都需要转型,随着他们对市场需求和技术可行性的深入了解而改变方向。由于 AI 降低了转型的成本,探索各种可能性变得更加容易,你不会被死死锁定在一个方向上,甚至可以同时探索多个创业项目——你只需要告诉 AI 你想要什么。

我希望我能说这种令人印象深刻的成果归功于我出色的教学,但实际上,我们目前还没有一个很好的框架来指导如何使用所有这些工具,学生们很大程度上是自己摸索出来的。他们拥有一定的管理经验和专业领域知识帮了大忙,因为事实证明,成功的关键正是上一段的最后一点:告诉 AI 你想要什么

随着 AI 越来越能够胜任那些原本需要人类花费数小时才能完成的任务,评估这些结果所耗费的时间也随之增加,因此“善于委派任务”的价值正在不断提升。但是,你究竟应该在什么时候把任务委派给 AI 呢?

代理型工作的核心方程式

我们其实已经有了一个答案,只是稍微有些复杂。我们需要考虑三个因素:

  1. AI 能力的参差不齐(Jagged Frontier):在处理复杂任务时,你无法准确预知 AI 擅长什么、不擅长什么。
  2. 速度极快:无论 AI 做得好坏,它的速度绝对是快的。它能在几分钟内产出人类需要数小时才能完成的工作。
  3. 成本低廉:相对于专业人员的工资而言,AI 是廉价的,而且它完全不介意你生成多个版本然后把大部分都扔掉。

这三个因素意味着,决定是否将任务委派给 AI 取决于三个变量:

  • 人类基准时间(Human Baseline Time):你自己完成这项任务需要多长时间。
  • 成功概率(Probability of Success):在特定的尝试中,AI 产出符合你标准的结果的可能性有多大。
  • AI 处理时间(AI Process Time):你向 AI 提出请求、等待结果以及评估 AI 产出所需的时间。

一个有用的心智模型是:你是在用“自己完成整个任务”(人类基准时间)与“支付管理成本”(AI 处理时间)进行权衡,而且为了得到可接受的结果,你可能需要支付多次管理成本。成功概率越高,你需要支付AI 处理时间的次数就越少,把工作交给 AI 就越划算。

例如,假设一项任务你自己做需要一个小时,AI 几分钟就能做完,但检查 AI 的答案需要三十分钟。在这种情况下,只有当成功概率非常高时,你才应该把工作交给 AI,否则你在生成和检查草稿上花费的时间会比自己直接做还要多。然而,如果人类基准时间是 10 个小时,那么只要能让 AI 胜任这项工作,花几个小时与 AI 协作就是值得的。

我们知道这个方程式是成立的。去年夏天,OpenAI 发布了一篇关于 AI 与实际工作的重要论文《GDPval》。该研究让来自金融、医疗、政府等不同领域的资深人类专家与最新的 AI 进行对决,并由另一组专家担任裁判。专家平均需要 7 个小时来完成工作,这就是人类基准时间。而AI 处理时间则非常有趣:AI 完成任务只需几分钟,但专家需要花一个小时来实际检查工作,当然,编写提示词也需要时间。

至于成功概率,在《GDPval》刚发布时,裁判在大多数情况下判定人类的工作胜出;但随着 GPT-5.2 的发布,天平倾斜了。GPT-5.2 的 Thinking 和 Pro 模型在平均 72% 的时间里打平或击败了人类专家。

现在我们可以计算一下,在一项耗时 7 小时的任务中你能节省多少时间(假设成功概率为 72%,评估时间为 1 小时)。如果你尝试把每项任务都交给 AI,花时间写提示词,花一小时评估答案,如果 AI 答案糟糕就自己重做,那么你平均能节省 3 个小时。AI 失败的任务会耗费更长时间(因为你浪费了提示和审查的时间),但 AI 成功的任务会快得多。

更重要的是,我们可以利用管理学中的技巧,让这个方程式变得对我们更有利!

“委派”即新型提示词

为了提高成功概率并降低 AI 处理时间,让委派给 AI 变得更具价值,我们可以做三件事:

  1. 提供更好的指令:设定清晰的目标,让 AI 在执行时有更高的成功机会。
  2. 提升评估和反馈能力:这样我们就能用更少的尝试次数让 AI 做对事情。
  3. 简化评估流程:让我们能更轻松、更省时地判断 AI 在某项任务上做得好不好。

所有这些因素都可以通过专业领域知识来提升——专家知道该下达什么指令,能更敏锐地发现哪里出了问题,也更善于纠正错误。

如果你不需要非常具体的东西,现在的 AI 模型已经具备了极强的自主解决问题的能力。例如,我发现 Claude Code 仅凭一个提示词就能生成一个完整的 1980 年代风格的冒险游戏:“创建一个完全原创的、老派 Sierra 风格的冒险游戏,使用类似 EGA 的图形。你应该使用你的图像智能体来生成图像并给我一个解析器。让所有谜题都有趣且可解。完成这个游戏(游玩时间应在 10-15 分钟),不要问任何问题。让它变得令人惊叹和愉悦。”

就这样,AI 制作了一切,包括美术。通过最后两个提示词,它测试并部署了游戏(你可以在 enchanted-lighthouse-game.netlify.app 亲自体验)。

这确实令人惊叹,但这种惊叹被放大了,因为我不需要任何具体的东西,只是一个 AI 可以自由即兴发挥的冒险游戏。然而,真正的工作和真正的委派意味着你脑海中有一个具体的输出目标,这正是事情变得棘手的地方。你如何向 AI 传达你的意图,让它执行你想要的内容,使其在运用“判断力”解决问题的同时,依然能给出你期望的输出?

这个问题在 AI 出现之前就存在了,而且非常普遍,以至于每个行业都发明了属于自己的文档来解决它:

  • 软件开发者编写产品需求文档(PRD)
  • 电影导演移交镜头清单(Shot lists)
  • 建筑师创建设计意图文档
  • 海军陆战队使用五段式命令(情况、任务、执行、后勤、指挥)。
  • 咨询顾问用详细的交付规格来界定项目范围。

在代理型工作的新世界里,所有这些文档都可以作为极佳的 AI 提示词(而且 AI 一次可以处理很多页的指令)。你可以使用这么多格式来指导 AI,原因在于它们本质上都是同一回事:试图将一个人脑子里的想法转化为另一个人的行动。

当你审视一份优秀的委派文档到底包含什么时,你会发现它们惊人地一致:

  • 我们试图完成什么,为什么?
  • 委派权限的边界在哪里?
  • “完成”的标准是什么?
  • 我需要哪些具体的输出?
  • 我需要哪些中期输出来跟进你的进度?
  • 在告诉我你完成之前,你应该检查什么?

如果这些都规定得很明确,AI 就像人类一样,更有可能出色地完成工作。而在弄清楚如何向 AI 下达这些指令的过程中,你实际上是在重新发明管理学。

管理 AI 智能体

我发现一个有趣的现象:各大 AI 实验室里一些最知名的软件开发者指出,他们的工作正在从主要写代码转变为主要管理 AI 智能体。编程一直有着非常严密的结构和清晰可验证的输出(代码要么能跑,要么不能),因此它是 AI 工具最先成熟的领域之一,也是第一个感受到这种变化的职业。但这绝不会是最后一个。

作为一名商学院教授,我认为许多人已经具备了(或者可以学习)与 AI 智能体协作所需的技能——这些都是管理学的基础技能。如果你能解释你的需求、提供有效的反馈,并设计评估工作的方法,你就能与智能体协作。在很多方面,至少在你的专业领域内,这比试图设计巧妙的提示词来完成工作要容易得多,因为它更像是与人共事。

与此同时,传统的管理学总是建立在“稀缺性”的假设之上:你之所以委派任务,是因为你无法独自完成所有事情,而且人才有限且昂贵。AI 改变了这个方程式。现在,“人才”是丰富且廉价的。真正稀缺的,是知道该提出什么要求。

这就是我的学生们表现如此出色的原因。他们不是 AI 专家,但他们花了数年时间学习如何在自己的专业领域内界定问题、定义交付成果,以及识别财务模型或医疗报告中的错误。他们拥有从课堂和工作中辛苦积累起来的框架,而这些框架成为了他们的提示词。那些经常被轻视的“软”技能,结果变成了真正的硬实力。

我不知道当每个人都成为拥有一支不知疲倦的智能体大军的管理者时,未来的工作究竟会是什么样子。但我怀疑,那些能够蓬勃发展的人,将是那些知道“什么是好结果”的人——并且能够清晰地解释它,清晰到连 AI 都能交付出来。

我的学生们在四天内弄明白了这一点。不是因为他们是 AI 原住民,而是因为他们已经懂得如何管理。事实证明,他们过去所有的训练,都在无意中为这一刻做好了准备。

关联主题