摘要

1) 一句话总结 Anthropic 通过引入包含五个“经济基元”的经济指数,量化分析了 Claude 在真实场景中的使用数据,揭示了 AI 在复杂任务中的显著提速效应及其对全球劳动力市场深远但不均衡的经济影响。

2) 关键要点

  • 评估框架: 引入五个“经济基元”指标来衡量 AI 的经济影响:任务复杂性、技能水平、使用目的、AI 自主性和任务成功率。
  • 复杂任务提速更显著: 任务越复杂,提速效果越好。需要高中学历的任务提速 9 倍,而需要大学学历的任务提速 12 倍(尽管后者的任务成功率略降至 66%)。
  • 现实任务时间跨度更长: 相比基准测试(2小时任务 50% 成功率),现实中 Claude 在更耗时的任务上表现更好(API 端 3.5 小时任务成功率达 50%,Claude.ai 端达 19 小时)。
  • 全球使用差异: 高收入国家主要将 AI 用于工作和个人用途,而低收入国家主要用于教育课程。
  • 职业渗透率提升: 样本中 49% 的工作有至少四分之一的任务使用了 Claude(高于 2025 年 1 月的 36%)。
  • 宏观生产力增长: 结合“任务成功率”调整后,预估 AI 的广泛采用将在未来十年内使美国劳动生产率年增长率提高 1.0(API 端)至 1.2(Claude.ai 端)个百分点。
  • 任务高度集中: 计算机和数学任务占据主导,约占 Claude.ai 对话的三分之一和 API 流量的近一半;排名前十的任务占据了 24% 的总使用量。
  • 交互模式现状: 在 Claude.ai 上,“增强(Augmentation)”(52%)目前超越“自动化(Automation)”(45%)成为最受欢迎的交互模式。
  • 数据基础: 报告基于 2025 年 11 月的 100 万条 Claude.ai 随机对话样本和 100 万条 API 流量样本(主要使用 Claude Sonnet 4.5 模型)。

3) 风险与不足

  • 劳动力影响极不均衡: AI 的使用和影响高度集中在特定国家和职业中,对不同职业的影响方式截然不同(如数据录入员和放射科医生受实际影响更大)。
  • 职业“去技能化”与降薪风险: Claude 倾向于覆盖需要较高教育水平的任务(平均 14.4 年),移除这些任务会导致工作平均出现“去技能化”,历史证据表明这可能导致相关职业的就业和工资下降。
  • 数据存在选择偏差: 现实使用中 AI 能够处理更长时间跨度任务的部分原因,在于用户存在选择偏差,即用户倾向于只把他们认为 AI 能胜任的任务交给 Claude。

正文

人工智能是否真的让人们的工作变得更高效?AI 最擅长辅助哪些类型的任务?它又将如何改变人们的职业性质?

在 Anthropic,我们正在持续衡量现实世界中的 AI 使用情况,以解答这些问题。通过保护隐私的分析方法,我们对 Claude.ai(主要代表消费者使用情况)和我们的第一方 API(主要代表企业使用情况)的对话进行了研究。在以往的报告中,我们按职业和工资水平评估了 AI 任务,深入探讨了软件开发领域,并研究了不同国家和美国各州的 AI 使用情况。

现在,我们为“经济指数(Economic Index)”引入了更详细的分析维度。在第四份报告中,我们提出了一套名为“经济基元(economic primitives)”的概念:这是一组包含五个简单、基础的测量指标,用于追踪 Claude 随着时间推移产生的经济影响。

什么是“经济基元”?

我们通过让 Claude 对样本中的每段对话回答一组常见问题,得出了这五个基元指标。它们不仅是 AI 潜在经济影响的领先指标,还能帮我们解答 AI 如何改变工作等复杂问题:

  • 任务复杂性(Task complexity): 衡量任务的耗时和难度。我们通过评估人类在没有 AI 帮助下完成任务的预估时间、使用 AI 完成任务的时间,以及用户是否在单次对话中处理多个任务来衡量复杂性。
  • 技能水平(Human and AI skills): 探讨自动化如何与技能水平相互作用。我们衡量用户在没有 Claude 的情况下是否能完成任务,以及理解用户提示词和 Claude 回复所需的受教育年限。
  • 使用目的(Use case): 区分专业工作、教育和个人用途。劳动力市场的影响最直接来源于工作场所的使用,而教育用途则可能预示着未来劳动力正在培养与 AI 互补的技能。
  • AI 自主性(AI autonomy): 衡量用户将决策权交给 Claude 的程度(从主动协作到完全委托),这有助于预测自动化的步伐。
  • 任务成功率(Task success): 衡量 Claude 对自身是否成功完成任务的评估。这关系到自动化劳动力任务的可行性(任务能否被自动化)和成本(需要尝试多少次)。

我们的最新报告抽取了 2025 年 11 月的对话样本(主要使用 Claude Sonnet 4.5 模型),并利用这些基元指标探索了广泛的问题。

任务层面的发现

我们发现,越复杂的任务,Claude 带来的提速效果越明显。以理解对话输入所需的受教育年限来衡量:在 Claude.ai 上,需要高中学历(12年)的任务提速了 9 倍,而需要大学学历(16年)的任务提速了 12 倍(在 API 端的提速甚至更大)。这意味着 AI 的生产力收益目前正集中在需要较高人力资本的任务上,这也印证了白领专业人士更有可能在工作中使用 AI 的现象。

当我们根据任务的“成功率”进行调整时,这一趋势依然成立。Claude 完成需要大学学历任务的成功率为 66%,而完成低于高中学历任务的成功率为 70%。虽然成功率随复杂性略有下降,但 AI 对复杂任务的提速效应远超这一影响。

此外,我们结合经济基元对 AI 的“任务时间跨度”进行了分析。METR 的基准测试表明,Claude Sonnet 4.5 在耗时 2 小时的任务上能达到 50% 的成功率。相比之下,我们的 API 数据显示,Claude 在耗时近两倍(约 3.5 小时)的任务上能达到 50% 的成功率;而在 Claude.ai 上,这个时间跨度甚至长达约 19 小时。这种差异主要源于现实使用中的反馈循环(用户将复杂任务拆解为小步骤以纠正方向)以及选择偏差(用户倾向于把他们认为 AI 能胜任的任务交给 Claude)。

在全球范围内,Claude 在不同经济发展阶段的国家完成的任务类型截然不同。在人均 GDP 较高的国家,Claude 更常用于工作或个人用途;而在低收入国家,它更多被用于教育课程。这符合一条直观的“采用曲线”:低收入国家主要将 AI 用于教育和少量工作任务,随着国家变富裕,AI 的使用逐渐向个人用途多元化发展。

职业层面的影响

在 2025 年 1 月的第一份报告中,我们样本中 36% 的工作有至少四分之一的任务使用了 Claude。综合多份报告的数据,这一比例已升至 49%。

然而,当我们将 Claude 的任务成功率纳入考量(并根据工人执行该任务的频率和耗时进行加权)后,受 AI 影响最大的职业图景发生了变化。我们发现,某些职业(如数据录入员和放射科医生)受 AI 的影响远比单纯的“任务覆盖率”所显示的要大,而其他职业(如教师和软件开发者)受到的相对影响则较小。

进一步分析显示,Claude 更有可能覆盖职业中需要较高教育水平的任务(平均需要 14.4 年教育,相当于美国副学士学位,高于整体经济 13.2 年的平均水平)。

作为一个实验,我们估算了如果移除这些被 Claude 覆盖的任务,人们工作的任务构成会发生什么变化。初步效应是,这会导致工作平均出现**“去技能化(deskilling)”**,因为高学历任务被移除了。技术作家、旅行社代理和教师等职业会受到影响(尽管少数职业如房地产经理会受到反向影响)。历史证据也表明,当自动化技术出现在专利数据中时,相关职业的就业和工资随后往往会下降。当然,劳动力市场可能会动态调整,但这一信号揭示了 AI 在不久的将来可能对职业产生的最直接影响。

宏观经济的总体影响

在早期的研究中,我们估计 AI 的广泛采用可能在未来十年内使美国劳动生产率的年增长率提高 1.8 个百分点。

利用新的基元指标,我们重新审视了这一分析。如果仅基于任务提速的估算,我们依然得出 1.8 个百分点的增长。但当我们将任务可靠性(即任务成功的概率)纳入调整后,对于在 Claude.ai 上完成的任务,该估值下降了约三分之一(至每年 1.2 个百分点);对于 API 上通常更具挑战性的任务,估值下降得略多(至 1.0 个百分点)。

即便每年劳动生产率增长 1 个百分点,依然是一个显著的数字:它将使美国生产率增长恢复到上世纪 90 年代末和 21 世纪初的水平。而且,这一估算并未考虑 AI 模型变得更强大或工作场所 AI 使用变得更成熟的可能性。事实上,在我们的调查之后,随着 Claude Opus 4.5 的发布,Claude 已经变得更加强大。

过往指标的最新动态

我们还收集了 2025 年 1 月至 11 月期间的新数据,发现了以下趋势:

  1. 任务高度集中: 尽管 Claude.ai 上有 3000 种独特的工作任务,但排名前十的任务占据了 24% 的使用量(高于 1 月份的 21%)。计算机和数学任务继续占据主导地位,约占 Claude.ai 对话的三分之一,以及 API 流量的近一半。
  2. 增强 vs. 自动化: 在 Claude.ai 上,“增强(Augmentation)”(占 52%)已经超越“自动化(Automation)”(占 45%),成为最受欢迎的交互模式。虽然这与 8 月份的数据(自动化领先)相比出现了反转,但从更长的时间跨度来看,自动化在任务中的份额仍在缓慢上升。
  3. 地理分布: 美国、印度、日本、英国和韩国在 Claude.ai 的总体使用量上依然领先,采用率与人均 GDP 高度相关。不过在美国本土,Claude 的使用在各州之间变得明显更加均衡。模型预测,如果这一趋势持续,美国各地的 Claude 使用量将在两到五年内实现均等化。

结论

最新的经济指数报告得出的最直接结论是:AI 对全球劳动力的影响依然极不均衡。AI 的使用集中在特定国家和职业中,且对不同职业的影响方式截然不同。

这份报告为我们未来的调查提供了一个新的基准。随着 Claude 的不断进步,我们预计它将被要求承担更难的任务,并取得更高的成功率。我们还预计,随着任务变得更加可靠,它们可能会从 Claude.ai 转移到 API(即从消费者主导转向企业主导)。鉴于企业采用对 AI 生产力效应的重要性,这将为我们提供另一个关于未来经济影响的指示信号。

(注:本报告的所有分析均基于保护隐私的分析方法。我们分析了来自 Claude.ai 免费、Pro 和 Max 版本的 100 万条随机对话样本,以及来自第一方 API 流量的 100 万条转录文本。)

关联主题