摘要
1) 一句话总结
基于对十万次真实对话的分析,Anthropic 估算 Claude 可将单项任务的完成时间平均缩短 80%,若广泛采用,当前一代 AI 模型有望在未来十年内使美国劳动生产率每年增长 1.8%。
2) 关键要点
- 数据与方法:研究抽取了 100,000 次真实的 Claude.ai 对话记录,利用 Claude 估算有无 AI 协助下的任务耗时,并将任务与 O*NET 职业分类及美国劳工统计局(BLS)工资数据相匹配。
- 单任务效率提升:在无 AI 协助下,这些复杂任务平均需要人类耗费约 1.4 小时(约 90 分钟);而 Claude 估算 AI 将这些任务的完成时间缩短了约 80%。
- 人工成本折算:按人类专家执行计算,Claude 处理的单次对话任务平均折合专业人工成本约为 54 至 55 美元。
- 职业差异显著:管理(2.0小时/133美元)和法律(1.8小时/119美元)等复杂知识工作耗时最长、成本最高;而食品准备等任务耗时较短(约 30 分钟/8美元)。
- 宏观经济预测:若当前一代 AI 模型在未来十年内普及,预计可使美国劳动生产率每年增长 1.8%,全要素生产率(TFP)每年增长 1.1%,约为近年来增长率的两倍。
- 工作流程瓶颈:随着 AI 大幅加速某些特定任务(如代码编写、文档生成),未被 AI 加速的任务(如实地检查、人际协调)将在整体工作中占据更大比例,并可能成为制约增长的新瓶颈。
- 估算准确性验证:在真实的软件开发 JIRA 任务测试中,Claude 的时间估算与实际耗时具有中等强度相关性(斯皮尔曼系数 ρ=0.44),仅略低于人类开发者(ρ=0.50),证明其估算具有方向性参考价值。
3) 风险与局限性
- 未计入外部耗时:估算未包含人类在 Claude 对话之外花费的时间(如验证 AI 工作质量、持续迭代和完善输出结果的时间),因此可能在一定程度上高估了当前的生产力效应。
- 模型估算偏差:Claude 的时间估算存在“压缩”倾向(容易高估短任务耗时、低估长任务耗时),且缺乏针对对话任务耗时的现实世界数据验证。
- 任务分类局限性:O*NET 任务列表无法完全反映实际工作的复杂性,忽略了隐性知识、人际关系和不确定性判断等重要因素。
- 结构性假设缺陷:计算未考虑雇用员工和沟通上下文的额外资源成本,且隐含假设了 AI 的工作质量与人类专家相当(实际当前模型在某些任务上可能表现较差)。
- 数据样本偏差:数据集仅来自 Claude.ai,存在选择效应(用户倾向于在认为 Claude 最有用的任务上使用它),且可能遗漏了不常见的 AI 任务。
- 未考虑组织重组与创新:该模型仅衡量了“加速现有任务”的收益,无法预测企业将如何围绕 AI 重组业务运营,也未捕捉 AI 加速科学创新对生产力的深远影响。
正文
概述
与 Claude 的真实对话能告诉我们 AI 对劳动生产率有何影响?使用我们保护隐私的分析方法,我们从 Claude.ai 中抽取了十万次真实对话作为样本,估算在有无 AI 协助的情况下完成这些对话中的任务所需的时间,并研究其对更广泛宏观经济的生产力影响。根据 Claude 的估算,如果没有 AI 协助,这些任务平均需要大约 90 分钟才能完成,而 Claude 将单个任务的速度提升了约 80%。
推断这些估算结果表明,当前一代 AI 模型可能会在未来十年内使美国劳动生产率每年增长 1.8%——大约是近年来运行率的两倍。但这并不是对未来的预测,因为我们没有考虑到采用率,也没有考虑到能力更强的 AI 系统将带来的更大生产力效应。
我们的分析存在局限性。最值得注意的是,我们无法计算人类在与 Claude 对话之外花费在任务上的额外时间,包括验证 Claude 工作质量或准确性的时间。但随着 AI 模型在时间估算方面变得越来越出色,我们认为本研究简报中的方法对于理解 AI 如何塑造实际工作将变得越来越有用。
以下是我们结果的更详细摘要:
-
在十万次真实世界的对话中,Claude 估算 AI 将任务完成时间缩短了 80%。 我们使用 Claude 评估匿名的 Claude.ai 记录,以估算 AI 对生产力的影响。根据 Claude 的估算,人们通常使用 AI 处理复杂的任务,这些任务平均需要人类花费 1.4 小时才能完成。通过将任务与 O*NET 职业和 BLS(美国劳工统计局)工资数据相匹配,我们估算这些任务原本需要耗费价值 55 美元的人工成本。
-
不同职业在任务的估算范围、成本和节省的时间上存在很大差异。 根据 Claude 的估算,人们使用 Claude 处理原本需要近两个小时的法律和管理任务,而对于食品准备任务,原本只需 30 分钟。我们发现,医疗辅助任务的完成速度可以提高 90%,而硬件问题则能节省 56% 的时间。然而,这并没有考虑到人类在 Claude.ai 对话之外可能花费在这些任务上的时间,因此我们认为这些估算可能至少在某种程度上高估了当前的生产力效应。
-
将这些结果推断到整体经济,当前一代 AI 模型可能会在未来十年内使美国劳动生产率每年增长 1.8%。 这将使美国自 2019 年以来的年增长率翻倍,并使我们的估算处于近期估算值的上限。以 Claude 对任务级效率提升的估算为前提,我们使用标准方法计算出未来十年美国劳动生产率隐含的年增长率为 1.8%。然而,这一估算并未考虑 AI 模型的未来改进(或当前技术的更复杂应用),这些改进可能会显著放大 AI 的经济影响。
-
随着 AI 加速某些任务,其他任务可能会成为瓶颈: 我们看到某些任务的速度大幅提升,而其他任务的提升幅度则小得多,即使在同一职业群体中也是如此。在 AI 作用较小的地方,这些任务可能会成为瓶颈,潜在地制约增长。
这为我们提供了一个新的视角来理解 AI 随时间推移产生的经济影响,我们将作为我们的经济指数(Economic Index)的一部分在未来持续追踪: 基于真实世界的 Claude 对话计算这些估算值,为我们理解 AI 生产力提供了一个新视角。这补充了其他方法,例如狭窄领域的实验室研究,或提供更粗粒度洞察的政府统计数据。随着能力和采用率的不断进步,我们将追踪这些估算值随时间的变化,以获得这些问题不断演变的图景。
引言
作为 Anthropic 经济指数(Economic Index)的一部分,我们记录了人们如何在不同的任务、行业和地区使用 Claude。我们捕捉到了使用的广度——人们如何使用 Claude 处理法律、科学和编程任务——但没有捕捉到其深度。人们使用 Claude 处理的任务有多重要?Claude 为他们节省了多少时间?
当前版本的经济指数无法捕捉这种任务内的异质性——例如,它无法区分耗时五分钟和耗时五天的报告撰写任务,也无法区分耗时一个下午和耗时几周的财务建模任务。这使得评估 AI 的经济效应变得困难:一个软件开发者可能在一天内使用 Claude 编写十个拉取请求(pull requests),但如果其中九个是微小的文档更新,而一个是关键的基础设施变更,仅仅计算使用 Claude 执行这些任务的数量就抓错了重点。
不仅如此,随着模型能力的提高,我们希望了解它们是否在从事更高价值的工作。为了理解 AI 如何重塑工作和生产力,我们不仅需要知道 Claude 处理哪些任务,还需要知道这些任务的实质内容以及节省的时间有多可观。
一些团队已经开始进行随机对照试验,以衡量狭窄领域的生产力收益,包括软件工程任务、写作和客户服务。METR 在衡量 AI 完成长任务能力方面的工作表明,AI 系统可以独立应对长期的、多步骤的挑战。但这些评估只考虑了狭窄的问题集,而不是广泛的现实世界应用。为了评估 AI 对经济的整体影响,我们需要一种方法来分析成百上千个真实的 AI 应用。
本报告迈出了实现该目标的第一步。它使用 Claude 估算人类完成 Claude 所处理任务所需的时间,将其与 Claude 和人类共同花费的时间进行比较,从而计算出 AI 节省了多少时间。虽然 AI 模型缺乏关于用户专业知识、工作流程和限制条件的上下文,但我们发现,相对于人类估算的完成时间和时间追踪结果,模型估算的时间在一个软件工程任务数据集中显示出了令人满意的准确性。
在下文中,我们将介绍估算任务级时间节省的方法,根据真实数据验证我们的方法,然后使用这些估算值来评估哪些任务和职业从 AI 中获得了最大的生产力收益。然后,我们将探讨随着 AI 开始在整个经济中被采用,我们的任务级估算对总体生产力意味着什么。
估算任务时长和节省的时间
使用我们保护隐私的分析系统,我们分析了来自 Claude.ai(Free、Pro 和 Max 层级)的 100,000 份对话记录,以衡量 Claude 处理任务的时长和节省的时间。我们为每个任务生成了两个核心估算值:
-
无 AI 的时间估算:人类专业人员在没有 AI 协助的情况下完成该任务所需的小时数
-
有 AI 的时间估算:在 AI 协助下完成该任务所花费的时间
我们使用 Claude 为每次对话生成这些估算值。遵循我们的经济指数方法论,我们随后通过取每个任务时间估算的中位数,将这些单独的聊天对话汇总到 O*NET 分类中的任务。这使我们能够探索这些时间估算在经济体内的不同任务和职业中是如何变化的。分类提示词(Prompts)见附录。
分析真实世界的对话记录使我们能够解释任务内的变异。例如,即使设计制造设备任务的总体比例保持不变,记录级别的信息也能让我们看到,随着时间的推移,人们是否使用 AI 处理更复杂、时间跨度更长的项目(或获得更多的时间节省)。我们的经济指数将追踪这些估算值随时间的演变,并共享汇总数据集,供研究人员用来做出自己的预测和结论。
验证
众所周知,人类很难估算任务的持续时间。AI 模型的工作甚至更加困难,因为它们缺乏关于任务更广泛背景的关键上下文(尽管我们预计随着记忆和外部集成等功能变得更加全面,这种上下文会随着时间的推移而增加)。为了评估 Claude 的估算是否具有参考价值,我们进行了两项验证分析。
自洽性测试:首先,我们评估 Claude 在不同的对话样本或我们提示词的变化中,是否能对任务时长产生稳定的估算。
我们创建了多种提示词变体——例如,询问“具备适当技能的员工”与“熟练的专业人员”——以评估估算对提示词表述方式的敏感度。我们分析了每个变体的 1,800 次对话(用户同意与我们分享这些对话),并计算了提示词变体之间的相关性。结果显示出很强的自洽性,各变体之间的对数尺度相关性为 r = 0.89–0.93。
外部基准测试:如果模型的预测与现实不符,那么自洽性就意义不大。为了验证这一点,我们使用从开源代码库的 JIRA 工单中收集的数千个真实软件开发任务数据集,测试了 Claude 的时间估算能力,该数据集包含开发者的估算和实际追踪的完成时间。
这对 Claude 来说是一项非常具有挑战性的任务,因为 Claude 只接收 JIRA 工单的标题和描述,而人类开发者拥有关于代码库和工单的完整上下文,并且知道完成类似任务需要多长时间。在该基准测试的 1000 个任务子集中:
-
人类开发者自己与实际时间的斯皮尔曼相关系数(Spearman correlation)达到 ρ=0.50,对数值的皮尔逊相关系数(Pearson correlation)为 r_log=0.67,表明具有中等强度的相关性(这两个值越高越好)。
-
Claude Sonnet 4.5 达到了 ρ=0.44 和 r_log=0.46
-
提供了十个任务及其真实时长示例的 Claude Sonnet 4.5 显示出较差的 ρ=0.39,但 r_log 提高到了 0.48
这项分析表明,Claude 的估算提供了方向性信息,仅比软件开发者自己的估算稍差。然而,我们观察到 Claude 的估算比人类的估算要压缩得多——对较短的任务预测了相对较长的时间,反之亦然——并且总体上更容易高估。这表明不同任务之间实际的任务时长差异可能比我们报告的更大,并且实际任务时长可能略短。总体而言,这些发现表明,至少在该领域,模型预测与现实世界的结果具有有意义的相关性,这使得它们可用于比较不同任务或追踪随时间的变化。我们还观察到 Claude Sonnet 4.5 比 Claude Sonnet 4 具有更高的相关性,这表明这些估算可能会随着模型能力的提升而继续改善。
结果
我们首先使用上述方法估算任务级的节省,然后将这些汇总为对全经济范围效应的估算。
任务级节省
观察职业内的单个任务,可以提供关于 AI 可能在何处以及如何节省时间的具体示例。在最极端的情况下,我们看到用户仅用 11 分钟就完成了 Claude 认为需要 4.5 小时的课程开发任务。根据教师的平均时薪,此类任务的隐含人工成本为 115 美元。
人们还使用 AI 节省了撰写发票、备忘录和其他文档所需时间的 87%(至少对于要求 Claude 处理的文档类型而言)。最后,AI 在财务分析师任务(如解释财务数据)上节省了 80% 的时间,这些任务通常需要花费 31 美元的工资成本。
人类时间估算表明,根据职业的不同,Claude 处理的任务时长差异很大。在下面的图表中,我们展示了使用 Claude 的任务子集中每个职业类别的平均值 1。使用 Claude 的平均管理任务(例如选择投资)估算需要人类 2.0 小时完成,其次是法律(1.8 小时)、教育(1.7 小时)和艺术/媒体任务(1.6 小时)。在另一个极端,食品准备任务(例如规划菜单项或定价)、安装/维护和运输任务平均都需要 0.3-0.5 小时,这表明这些任务更具局限性,或者等待时间更少。鉴于 Claude 的时间估算倾向于低估长任务并高估短任务,在实践中这些差异可能会更大。
成本估算放大了 AI 影响的这种差异:时间估算最长的任务往往也是人工成本最高的任务。我们通过将每个任务的中位数时间乘以 2024 年 5 月 OEWS(职业就业和工资统计)数据中相关职业的平均工资来计算这些成本估算。专业人员的平均管理任务成本为 133 美元,而法律任务为 119 美元,与食品准备和供应相关的任务为 8 美元。商业和金融任务平均为 69 美元,而计算机和数学任务平均为 82 美元。
在我们观察到的所有任务中,我们估算 Claude 处理的工作如果聘请专家在每次对话中执行,其中位数专业人工成本为 54 美元。当然,对于许多任务,当前模型的实际表现可能不如人类专家,尽管最近的研究表明,在广泛的不同应用中,这种差距正在缩小。
在主要职业群体中,我们观察到样本中任务/职业的平均时薪与要求 Claude 处理的任务的人类等效时长之间存在正相关。例如,管理和法律职业类别在平均时薪方面位居分类榜首——这与 Claude 在复杂知识工作中的优势相吻合。
我们的人类时间和成本估算捕捉了人们使用 AI 处理任务的规模。但节省的时间——Claude 对使用 AI 完成工作能快多少的估算——反映了使用 AI 处理这些任务可能带来的生产力收益。
对话中位数估算节省了 84% 的时间,尽管我们看到不同任务和类别之间存在很大差异。例如,检查诊断图像的任务仅显示节省了 20% 的时间,这可能是因为这已经是专家在没有 AI 协助的情况下可以快速完成的任务。相比之下,从报告中汇编信息的任务节省了大约 95% 的时间,这可能是因为 AI 系统读取、提取和引用信息的速度比人类快得多。总体而言,按任务划分的节省时间分布集中在 50-95% 的范围内,在 80-90% 之间达到峰值。
这些大量的时间节省与 Claude 远超人类的读写能力相一致。然而,我们的方法没有考虑到人们将 Claude 的输出完善到最终状态所需的额外工作,也没有考虑到他们是否在多个会话中继续迭代工作产品——这两者都会导致节省的时间减少。过去的随机对照试验通常发现节省的时间较少,在不同的应用中包括 56%、40%、26%、14% 甚至负的时间节省——这可能是由于上述影响,或者因为这些研究检查的是早期世代的模型。
从任务级效率提升到全经济范围的生产力效应
上述估算捕捉了任务级别上由 AI 驱动的生产力收益。为了理解宏观层面的影响,本节对这些收益如何在整个经济中汇总进行建模,假设它们按照 Claude 的估算发挥作用。
为了估算全经济范围的生产力效应,我们使用了 Hulten 定理(Hulten’s theorem),这是一种标准方法,允许我们将任务级的效率提升汇总到更广泛的美国经济中 2。正如 Acemoglu (2024) 的“基准(baseline)”方法一样,我们将隐含的劳动生产率增长建模为任务级生产力收益的加权平均值——这种建模选择隐含地假设,资本投资将随着与 AI 采用相关的全要素生产率(TFP)的增加而增加。在这个框架中,隐含的 TFP 增长是劳动生产率的收益乘以劳动收入份额 3。
-
任务构成:对于每个职业,我们从 O*NET 获取工作任务列表。然后,我们使用 Claude 估算工人花费在这些任务上的时间比例。例如,Claude 估算程序员将 23% 的时间用于编写和维护代码,15% 用于分析和重写程序,较小的比例用于测试、文档和会议。
-
任务级生产力提升:在上一节中,我们提供了可用于计算在 AI 协助下每个任务完成速度提升多少的估算值。我们取无 AI 时间和有 AI 时间之间的对数差来生成生产力提升值,并保守地将我们样本中未观察到的任务分配为零提升。
-
全经济范围估算:我们使用两个因素根据其经济重要性对每个任务的隐含生产力收益进行加权:(i) Claude 估算的该职业花费在该任务上的时间比例(如上所述),以及 (ii) 该职业在美国总工资账单中的份额(该职业类别中就业的人数乘以平均工资,然后除以所有职业的总工资账单)。对于总工资账单,我们使用 2024 年 5 月的 OEWS 数据。这种方法隐含地假设 Claude 产生的时间估算代表了每个任务所有实例的可靠平均值,并且 Claude 或类似的 AI 系统将在整个美国经济中被采用。
研究发现
假设 AI 需要 10 年时间才能在美国经济中普及——并使用当前模型——我们计算出 Claude 的估算意味着美国劳动生产率每年增长 1.8%。这将使当前的长期增长率几乎翻倍,自 1947 年以来平均每年增长 2.1%,自 2019 年以来平均每年增长 1.8%。假设劳动力在全要素生产率中的份额为 0.6 4,这意味着全要素生产率总体每年增长 1.1%。鉴于自 2000 年代初以来 TFP 增长往往低于 1%,这些估算表明,即使广泛部署当前的 AI 系统也可能导致增长翻倍:达到 1990 年代末以及 1960 年代和 1970 年代的增长率 5。
这种由任务级效率提升所隐含的总体劳动生产率的估算增长,在近期关于 AI 对生产力潜在影响的估算范围内,尽管它处于上限(Filippucci, Gal, and Schief, 2024)。
重要的是,这项推演假设 AI 能力(以及人类使用 AI 的效率)在未来 10 年内与我们提取样本时保持一致。然而,这似乎不太可能成立:我们认为 AI 将在未来几年继续快速改进。
因此,这一估算应被视为基于当前使用模式探索可能发生情况的推演,而不是对实际最有可能发生的生产力影响的预测。正如我们在其他著作中所写的那样,我们对 AI 引起重大劳动力市场破坏的可能性保持高度警惕,这可能与 AI 带来的更大生产力增长有关。随着模型的进步,这可能代表了 AI 生产力效应的近似下限,尽管我们的估算没有考虑到采用的不均衡性,这可能会在短期内降低现实世界的生产力收益。
反映出某些任务和职业在我们的数据中出现的频率远高于其他任务和职业的事实,我们在职业对劳动生产率的贡献中也观察到了类似的现象。软件开发者对归因于 AI 的总劳动生产率收益贡献最大(19%)。总经理和运营经理(约 6%)、市场研究分析师和营销专家(5%)、客户服务代表(4%)以及中学教师(3%)跻身前五。
相比之下,餐饮、医疗保健服务、建筑和零售对整体生产力效应的贡献要小得多。这主要是因为它们的任务很少出现在我们的数据中——很大程度上是因为这些职业在我们的样本中关联的任务很少。
AI 将如何改变工人的时间分配?
如果工人能够使用 AI 加速其职业任务的一个子集,那么 AI 提速较少的任务可能会在这些职业的工作中占据更大、因此也更重要的份额。例如,AI 可能会帮助房屋检查员准备报告,但如果检查员仍然需要花费同样的时间亲自前往房产进行检查,这可能会使实地检查在整体工作中占据更大的比例。
下图说明了几个职业的这种情况。对于软件开发者来说,AI 加速了软件开发、测试、文档编制和数据处理的过程。但我们目前没有看到 AI 在协调系统安装或监督其他技术人员或工程师工作方面有意义的应用。对于教师来说,我们看到 AI 协助课程和活动规划,但不协助赞助课外俱乐部或在课堂上执行纪律。
从增长的角度来看,这些观察结果与 Aghion、Jones 和 Jones 最近的观察非常吻合:“增长可能不受限于我们擅长什么,而是受限于什么是必不可少却又难以改进的。”
局限性
我们的方法存在一些局限性,我们认为有必要就此主题进行进一步研究:
-
Claude 的预测并不完美,我们缺乏对 Claude 时间估算的现实世界验证:AI 系统是不完美的预测器,无法看到用户完成与模型交互后发生的活动。虽然我们预计这些估算会随着模型能力的提升而改善,但使用模型估算会引入一个显著的噪声源。虽然我们的估算表明模型在估算任务时间方面正在接近人类表现,而且人类本身也远非完美,但我们缺乏现实世界的数据来验证 Claude 提供的估算。
-
任务分类的局限性:实际工作比 O*NET 任务列表更复杂,我们为每个任务估算的时间分配只是近似值。工作的许多重要方面——隐性知识、人际关系、不确定性下的判断——并没有出现在这些正式的任务描述中,任务之间的联系对生产力的影响可能与孤立地节省这些任务的时间一样重要,甚至更重要。虽然我们显示了单个任务的巨大预测时间节省,但最近一项研究端到端软件功能的随机对照试验并未看到 AI 带来的时间节省。
-
结构性假设:在上述计算中,我们将专业人员在没有 AI 的情况下完成给定任务所需的时间与使用 AI 所花费的时间进行了比较。但这可能会低估生产力收益——因为雇用员工和沟通上下文需要我们未计入的额外资源,也可能会高估它——如果 AI 的工作质量比人类差的话。
-
组织重组:从历史上看,单个企业最大的生产力收益来自于重组业务运营以采用新技术。我们的模型可以帮助预测这种重组的影响,但它无法预测公司可能决定如何重组,或者这个过程可能发生得多快。
-
创新的作用:技术创新是经济增长的引擎。我们的模型没有捕捉到 AI 系统如何加速甚至自动化科学过程,也没有捕捉到这将对生产力、增长和工作结构产生的影响。
-
数据有限:我们的数据集仅来自 Claude.ai 对话。该样本不能代表 AI 使用的全貌,并且可能存在一些选择效应,即人们使用 Claude 处理的任务实例是他们认为 Claude 最有用的实例。此外,由于我们的样本量有限,我们可能会遗漏一些不太常见的 AI 任务。
我们在此开发的测量基础设施能够大规模持续追踪 AI 对节省时间的影响。随着模型的改进和更好的方法解决这些局限性,我们可以重新估算这些时间节省,并确定这些能力提升如何转化为更广泛的经济影响。我们预计将在未来的几个月和几年中追踪这些变化。
结论
Claude 处理复杂程度差异极大的任务——从只需几分钟即可完成的简单食品准备问题,到需要数小时的复杂法律和管理任务。但这项工作的总体效应是什么?
根据 Claude 对每个任务的时间估算(并假设在未来 10 年内普及),我们发现使用当前模型意味着美国劳动生产率可能每年增长 1.8%——这是近期劳动生产率增长率的两倍。基于当前的 AI 使用情况,这些收益将集中在技术、教育和专业服务领域,而零售、餐饮和运输行业受到的影响微乎其微。随着模型能力、产品和采用率的不断进步,我们将作为经济指数的一部分持续追踪这些变化。
这些生产力收益来自于加快现有任务的完成速度。然而,从历史上看,变革性的生产力提升——无论是来自电气化、计算还是互联网——都不是来自于加速旧任务,而是来自于从根本上重组生产。在这样的未来中,AI 不仅使实现功能变得更快,而且公司还会重组会议和代码审查,以更快地验证和发布这些功能,无论是使用 AI 还是通过其他方式。
我们的框架可用于帮助估算这种重组的影响,但它无法预测将发生哪些变化,或发生的速度有多快。未来工作的一个重要方向是理解这个问题——以更好地了解企业何时以及如何围绕新兴的 AI 能力进行重组。答案将决定 AI 何时从提供显著但有限的生产力提升,飞跃为代表历史上定义技术革命的那种结构性转型。
Bibtex
如果您想引用本文,可以使用以下 Bibtex 键:
附录
Claude 估算与其他估算的比较
用于我们时间估算的提示词(Prompts)
人类时间估算提示词
交互时间估算提示词
软件开发时间估算提示词
任务时间估算提示词
-
Claude 容易产生时间跨度和成本的异常估算值;例如,它将一些编程任务归类为需要人类数年才能完成或价值数百万美元。虽然这是可能的,但为了产生更保守的估算,我们取每个任务中位数的平均值,并按每个任务中的对话数量进行加权。
-
Hulten 定理指出,在没有扭曲的竞争均衡中,微观层面生产力收益对全要素生产率的贡献与该生产要素的 Domar 权重成正比(一阶近似)。一个要素的 Domar 权重是其总产出价值与 GDP 的比率。在 Acemoglu (2024) 提出的基于任务的模型中,劳动密集型任务的 Domar 权重等于该任务在工资账单中的份额乘以劳动收入份额。有关 Hulten 定理的最新处理和扩展,请参见 Baqaee 和 Farhi (2019)。在公式上,Hulten 定理指出 TFP 的对数变化等于微观生产力对数变化的 Domar 加权和。在我们的案例中,对数变化取为 ln(无 AI 完成时间) 减去 ln(有 AI 完成时间)。
-
TFP 的增长比劳动生产率的增长更基础。劳动生产率是每个工人的产出比率,即使 TFP 保持不变,由于除劳动力之外的其他生产要素的增加,劳动生产率也可能增加。
-
Acemoglu 2024 计算出暴露于 AI 的行业的劳动份额为 0.57;考虑到两者非常接近,为简单起见,我们使用全经济范围的份额 0.6。
-
有关全要素生产率的历史数据,请参阅旧金山联邦储备银行的估算:https://www.frbsf.org/research-and-insights/data-and-indicators/total-factor-productivity-tfp/ 。2015 年至 2024 年 TFP 的平均增长率为 0.7%。二十年前,1995 年至 2004 年 TFP 的平均增长率为 1.6%。
相关文档
- 衡量 AI 智能体在实践中的自主性;关联理由:解说;说明:两文都基于真实任务讨论 AI 表现量化,前者侧重自主性评估,本文侧重时间与生产率估算。
- 印度国家简报:Anthropic 经济指数;关联理由:同一事件;说明:同属 Anthropic 经济指数体系,均用于解释 AI 使用与经济影响。
- AI 辅助如何影响编程技能的形成;关联理由:延伸思考;说明:本文关注效率提升,该文延伸到 AI 协作对开发者能力形成与长期产出的影响。