摘要

1) 一句话总结 Anthropic 推出了基于 Claude 的自动化定性研究工具 Anthropic Interviewer,并通过对 1250 名专业人士的大规模访谈,揭示了普通职场人士、创意工作者和科学家在实际工作中使用 AI 的模式、态度及未来预期。

2) 核心要点

  • 工具与方法论:Anthropic Interviewer 能够自动化执行访谈规划、自适应对话(每人 10-15 分钟)和主题聚类分析。本次测试样本包含 1000 名普通职场人士、125 名创意工作者和 125 名科学家。
  • 普通职场人士的现状:86% 表示 AI 为其节省了时间,65% 将 AI 的主要作用视为“增强”而非“自动化”。他们倾向于将常规行政任务交由 AI 处理,同时保留能定义其职业认同感的核心任务。
  • 创意工作者的矛盾心理:97% 报告 AI 提高了效率,68% 认为提升了工作质量。但该群体普遍存在严重的经济焦虑(担心被廉价生成内容取代),且 70% 提到了使用 AI 会面临同行的评判与社会污名化。
  • 科学家的谨慎采用:科学家主要将 AI 用于文献综述、编程和写作。79% 的受访者指出“信任和可靠性”是将其应用于核心研究(如假设生成和实验)的主要障碍,但 91% 期望未来能获得更多 AI 协助。
  • 职场隐瞒与焦虑:尽管生产力得到提升,但 55% 的普通职场人士对 AI 的未来影响感到焦虑。由于职场中对 AI 的负面看法,许多受访者(如 69% 的普通职场人士)选择隐瞒他们的 AI 工作流。
  • 后续决策与行动:Anthropic 将公开此次访谈的匿名数据集供研究使用,并已启动新的公众试点访谈。此外,Anthropic 正利用该工具与文化机构、科研受资助者以及美国教师联合会(覆盖 40 万名教师)合作,以收集反馈并指导未来的模型开发。

3) 风险与局限性

  • 选择偏差与需求特征:参与者通过众包平台招募,且明确知道正在接受 AI 系统的访谈,这可能导致样本偏向对 AI 更有经验的人群,或在回答时产生社会期望偏差。
  • 自我报告与客观数据的差异:受访者自我报告的交互风格(如认为使用方式偏向协作)与实际在 Claude 上的真实使用数据存在分歧。
  • 缺乏情感线索:Anthropic Interviewer 目前仅支持文本,无法读取语气、面部表情或肢体语言,可能会遗漏关键的情感线索。
  • 静态与非实验性研究:本次研究仅为当前态度的快照,无法追踪人机关系随时间的演变;同时无法确定 AI 的使用与生产力提升之间是否存在绝对的直接因果关系。
  • 全球普遍性受限:样本主要反映了西方工作者的情况,可能无法代表全球不同文化背景和职场动态下对 AI 的态度。

正文

我们即将推出一款新工具——Anthropic Interviewer,旨在帮助了解人们对 AI 的看法。在这篇研究文章中,我们将介绍该工具,描述我们在专业人士样本上进行的测试,并探讨我们的初步发现。我们还将讨论随着该工具的开发以及通过与创意工作者、科学家和教师的合作,我们目前可以在这一方向上探索的未来工作。

引言

如今,每天都有数以百万计的人在使用 AI。作为一家开发 AI 系统的公司,我们想知道他们是如何使用的、为什么使用,以及这给他们带来了怎样的影响。部分原因在于,我们希望利用人们的反馈来开发更好的产品;但同时也是因为,了解人与 AI 的互动是我们这个时代最伟大的社会学问题之一。

我们最近设计了一款工具,在保护用户隐私的同时调查 AI 的使用模式。它使我们能够分析整个经济体中不断变化的 AI 使用模式。但该工具只能让我们了解在与 Claude 的对话中发生了什么。对话之后呢?人们实际上是如何使用 Claude 的输出结果的?他们对此有何感受?他们想象中 AI 在他们的未来将扮演什么角色?如果我们想全面了解 AI 在人们生活中不断变化的角色,并在模型开发中以人类为中心,我们就需要直接询问人们。

这样的项目需要我们进行数百次访谈。在这里,我们借助了 AI 来帮助我们完成这项工作。我们构建了一个名为 Anthropic Interviewer 的访谈工具。在 Claude 的支持下,Anthropic Interviewer 能够以前所未有的规模自动进行详细的访谈,并将结果反馈给人类研究人员进行分析。这是我们在了解用户需求,以及为分析 AI 的社会和经济影响收集数据方面迈出的新的一步。

为了测试 Anthropic Interviewer,我们让它对 1250 名专业人士进行了访谈,了解他们对 AI 的看法,其中包括普通职场人士(N=1000)、科学家(N=125)和创意工作者(N=125)。我们将公开此次初步测试的所有访谈数据(已获得参与者同意),供研究人员探索;我们在下文提供了我们自己的分析。简而言之,以下是我们的一些发现示例:

  • 在我们的样本中,人们对 AI 在其工作中扮演的角色持乐观态度。积极的情绪贯穿了所讨论的大多数话题。然而,少数话题(如教育整合、艺术家被取代以及安全担忧)则伴随着较为悲观的预期。

  • 普通职场人士希望保留那些能定义其职业认同感的任务,同时将常规工作交给 AI。他们设想在未来,常规任务将被自动化,而他们的角色将转变为监督 AI 系统。

  • 尽管面临同行的评判和对未来的焦虑,创意工作者仍在使用 AI 来提高生产力。他们正在应对创意社区中使用 AI 带来的直接污名化,以及对经济替代和人类创意认同感被侵蚀的更深层担忧。

  • 科学家希望与 AI 合作,但目前还无法在核心研究中信任它。科学家们一致表示,希望 AI 能够生成假设并设计实验。但目前,他们将实际使用范围限制在撰写手稿或调试分析代码等其他任务上。

普通职场人士

创意工作者

科学家

方法

这次初步测试探讨了工作者如何将 AI 融入他们的专业实践中,以及他们对 AI 在其未来所扮演角色的感受。我们通过访谈生成定性数据,并辅以调查问卷中的定量数据,参与者在问卷中回答了有关其行为和职业背景的问题。我们还让一个独立的 AI 分析工具读取访谈记录,并从非结构化数据中聚类出涌现的、全局性的主题——例如,在访谈中提及特定话题或表达特定观点的参与者百分比。

参与者

我们使用 Anthropic Interviewer 对 1250 名专业人士进行了访谈。我们原本打算让该工具访谈普通的 Claude.ai 用户,但在这次初步测试中,我们寻找了在各个行业工作的参与者,并通过众包平台招募了他们(所有参与者都有众包以外的职业作为其主要工作)。

我们的 1000 名参与者是从一般职业样本中招募的(也就是说,我们没有从特定工作中挑选参与者)。在这一群体中,最大的子群体来自教育指导(17%)、计算机和数学职业(16%)以及艺术、设计、娱乐和媒体(14%)。

我们还招募了两个各包含 125 名参与者的专家样本。第一个来自创意职业:主要是作家和作者(占样本的 48%)以及视觉艺术家(21%),还有少数电影制作人、设计师、音乐家和手工艺人。第二个来自科学领域,包括物理学家(9%)、化学家(9%)、化学工程师(7%)和数据科学家(6%),以及其他 50 多个不同科学学科的代表。

我们选择增加这两个专家子群体,是因为它们代表了 AI 的作用仍存在争议且正在快速发展的专业领域。我们假设创意工作者和科学家会展现出截然不同的 AI 采用模式和职业担忧。

所有参与者均提供了知情同意书,允许我们将他们的访谈数据用于研究目的并公开访谈记录。

Anthropic Interviewer 的工作原理

Anthropic Interviewer 的运行分为三个阶段:规划、访谈和分析。下面我们将依次进行描述。

在此阶段,Anthropic Interviewer 会创建一个访谈量规(rubric),使其能够在成百上千次访谈中专注于相同的整体研究问题,同时又具备足够的灵活性,以适应个别访谈中可能出现的变化和偏题。

我们开发了一个系统提示词(system prompt)——一套关于 AI 模型如何工作的整体指令——来赋予 Anthropic Interviewer 方法论。在这里,我们包含了关于每个样本的假设,以及创建访谈计划的最佳实践(这是与我们的用户研究团队合作制定的)。

在设置好系统提示词后,Anthropic Interviewer 利用其对我们研究目标的了解(见下文),生成了具体问题和计划好的对话流程。随后进入审查阶段,人类研究人员与 Anthropic Interviewer 合作进行必要的编辑,以最终确定计划。

然后,Anthropic Interviewer 按照其访谈计划进行了实时的、自适应的访谈。在此阶段,我们加入了一个系统提示词,指导 Anthropic Interviewer 如何运用访谈的最佳实践。

由 Anthropic Interviewer 进行的访谈在 Claude.ai 上呈现,每位参与者的访谈持续约 10-15 分钟。

访谈结束后,人类研究人员与 Anthropic Interviewer 合作分析访谈记录。Anthropic Interviewer 的分析步骤以初始访谈计划为输入,输出对研究问题的解答以及说明性的引语。在此阶段,我们还使用了自动化的 AI 分析工具来识别涌现的主题,并量化它们在参与者中的普遍程度。

研究目标

如上所述,Anthropic Interviewer 通过其系统提示词了解了研究目标,并以解决这些目标的方式进行访谈。请注意,在这项初步研究中,我们的主要意图是对 Anthropic Interviewer 进行实际测试;尽管如此,以下目标仍然提供了有趣的数据,我们将在下文进行分析。

以下是每个子样本的主要研究目标:

  • 普通职场人士。“了解个人如何将 AI 工具整合到他们的专业工作流中,探索使用模式、任务偏好和交互风格,以深入了解工作场所语境下人类与 AI 之间不断演变的关系。”

  • 创意工作者。“了解创意专业人士目前如何将 AI 整合到他们的创作过程中,他们对 AI 影响其工作的体验,以及他们对 AI 与人类创造力未来关系的愿景。”

  • 科学家。“了解 AI 系统如何整合到科学家的日常研究工作流中,考察他们在科学过程不同阶段的当前使用模式、感知价值、信任水平以及采用障碍。”

结果

下面我们将讨论我们在访谈中的发现,并提供来自调查和主题分析的定量数据。

AI 对普通职场人士的影响

总体而言,我们一般专业人士样本中的成员将 AI 描述为生产力的助推器。在调查中,86% 的专业人士报告称 AI 为他们节省了时间,65% 的人表示他们对 AI 在其工作中扮演的角色感到满意。

浮现出的一个主题是工作场所的动态如何影响 AI 的采用。69% 的专业人士提到了在工作中使用 AI 工具可能带来的社会污名化——一位事实核查员告诉 Anthropic Interviewer:“最近一位同事说他们讨厌 AI,我什么也没说。我不会告诉任何人我的工作流程,因为我知道很多人对 AI 的看法。”

尽管 41% 的受访者表示他们在工作中感到安全,并相信人类技能是不可替代的,但 55% 的人对 AI 对其未来的影响表示焦虑。在表达焦虑的群体中,25% 的人表示他们对 AI 的使用设定了界限(例如,教育工作者总是自己制定教案),而另外 25% 的人则调整了他们的职场角色,承担了额外的责任或追求更专业的任务。

使用 AI 的方法差异很大。一位数据质量经理刻意选择了学习而非自动化:“我试着把它看作是学习一门外语——仅仅使用翻译应用并不能教会你任何东西,但如果有一位能回答问题并根据你的需求进行定制的导师,那将非常有帮助。”一位营销人员采取了灵活的方法:“我正在尝试多元化发展,同时保持一个强大的利基市场。”一位口译员已经准备完全离开这个领域:“我相信 AI 最终会取代大多数口译员……所以我已经在为职业转换做准备,可能会去拿个文凭并进入不同的行业。”值得注意的是,只有 8% 的专业人士表达了焦虑但没有任何明确的补救计划。

我们还对专业人士访谈中表现出的不同情绪强度进行了分类(见上图)。不同的职业表现出非常一致的情感特征,其特点是满意度很高。然而,这也伴随着挫败感,这表明专业人士在发现 AI 有用的同时,也遇到了重大的实施挑战。

增强与自动化

在之前的一项分析中,我们将 AI 的使用分为增强(AI 与用户协作执行任务)或自动化(AI 直接执行任务)。在 Anthropic Interviewer 的数据中,65% 的参与者将 AI 的主要作用描述为增强;35% 描述为自动化。值得注意的是,这与我们对人们如何使用 Claude 的最新分析有所不同,后者显示出更平均的比例:47% 的任务涉及增强,49% 涉及自动化。对于这种差异有多种潜在的解释:

  • Anthropic Interviewer 研究的受访者与我们之前研究中的用户之间可能存在样本差异;

  • 人们在 Claude 上的对话可能看起来比实际更偏向自动化——用户可能会在聊天结束后对 Claude 的输出进行完善或调整;

  • 参与者可能针对不同的任务使用不同的 AI 提供商;

  • 自我报告的交互风格可能与现实世界的使用情况存在分歧;

  • 专业人士可能认为他们对 AI 的使用比他们在 Claude 上的对话模式所显示的更具协作性。

专业人士设想了一个兼具增强和自动化的未来——常规行政任务的自动化,同时保持人类的监督。48% 的受访者考虑将他们的职业向专注于管理和监督 AI 系统而非执行直接技术工作的职位转型。

……如果我使用 AI 并借此提升我的技能,它可以为我节省大量行政方面的时间,从而让我有空去与人打交道。

一位牧师说:“……如果我使用 AI 并借此提升我的技能,它可以为我节省大量行政方面的时间,从而让我有空去与人打交道”。他们还强调了“良好界限”的重要性,并避免变得“如此依赖 AI,以至于没有它我就无法生活,或者无法完成我的使命。”

一位传播专业人士表示:“我相信我的大部分工作总有一天会被 AI 取代。我认为我的角色最终将集中在提示、监督、训练和对模型进行质量控制上,而不是自己实际去做这些工作”。目前在工作中被禁止使用 AI 的专业人士——例如一些律师、会计师和医疗保健工作者——预计政策将会发生变化,从而让他们在未来能够自动化许多任务。

AI 对创意职业的影响

我们的创意专业人士样本也报告称,AI 提高了他们的生产力。97% 的人报告说 AI 为他们节省了时间,68% 的人表示它提高了他们的工作质量。一位小说家解释说:“我觉得我可以写得更快,因为研究工作不再那么令人望而生畏了”,而一位网络内容作家则报告说,他们“已经从每天能产出 2000 字经过润色的专业内容,增加到了每天 5000 多字。”一位摄影师指出,AI 如何处理常规的编辑任务——将周转时间从“12 周缩短到大约 3 周”——使他们能够“有意地进行我以前可能错过或没有时间进行的编辑和微调。”

与一般样本类似,70% 的创意工作者提到试图应对同行对使用 AI 的评判。一位地图艺术家说:“我不希望我的品牌和商业形象与 AI 及其周围的污名紧密绑定在一起。”

由于 AI 的崛起,配音行业的某些领域已经基本消亡。

经济焦虑贯穿了创意工作者的访谈。一位配音演员表示:“由于 AI 的崛起,配音行业的某些领域已经基本消亡,比如工业配音。”一位作曲家担心,平台可能会“利用 AI 技术及其出版库无限生成新音乐”,让廉价的替代品充斥市场,冲击人类创作的音乐。另一位艺术家表达了类似的担忧:“现实地说,我担心我需要继续使用生成式 AI,甚至开始销售生成的内容,只是为了在市场上跟上步伐,以便谋生。”一位创意总监说:“我完全明白,我的收获就是另一位创意工作者的损失。我以前每天要付 2000 美元的那位产品摄影师,现在接不到我的业务了。”(请注意,Claude 不生成图像、视频或音乐——因此参与者表达的焦虑是关于广义上的 AI,而不仅针对 Claude)。

所有 125 名参与者都提到希望保持对他们创意输出的控制。然而,在实践中,这个界限被证明是不稳定的:许多参与者承认在某些时刻 AI 驱动了创意决策。一位艺术家承认:“AI 驱动了很大一部分概念;我只是试图引导它……60% 是 AI,40% 是我的想法”。一位音乐家说:“我不想承认,但在使用这个时,插件拥有大部分的控制权。”

如上图所示,不同学科表现出不同的情感特征:游戏开发者和视觉艺术家报告了很高的满意度,但矛盾的是,这也伴随着高度的担忧。设计师则表现出相反的模式,以挫败感为主,满意度极低。在所有学科中,信任度始终保持在较低水平,这表明人们对 AI 对创意工作的长期影响存在共同的不确定性。满意与担忧之间的张力可能凸显了创意专业人士的处境:他们一方面拥抱 AI 工具,另一方面又在努力应对对人类创造力未来的担忧。情感谱系上的广泛分散证实了不同的创意职业通过截然不同的情感视角来体验 AI 的整合。

AI 对科学工作的影响

我们对化学、物理、生物和计算领域研究人员的访谈发现,在许多情况下,AI 尚无法处理他们研究的核心要素,如假设生成和实验。科学家主要报告将 AI 用于文献综述、编码和写作等其他任务。这是包括 Anthropic 在内的 AI 公司正在努力改进其工具和能力的领域。

在 79% 的访谈中,信任和可靠性问题是主要障碍;当前 AI 系统的技术局限性出现在 27% 的访谈中。一位信息安全研究员指出:“如果我必须仔细检查并确认 [AI] 智能体给我的每一个细节以确保没有错误,那在很大程度上就违背了让智能体做这项工作的初衷。”一位数学家也表达了这种挫败感:“在我必须花时间验证 AI 的输出之后,基本上花费的时间是一样的。”一位化学工程师指出了对“阿谀奉承(sycophancy)”的担忧,解释说:“AI 倾向于迎合 [用户] 的感受,并根据他们提出问题的方式改变答案。这种不一致性往往让我对 AI 的回答持怀疑态度。”

大多数科学领域报告了很高的满意度,但挫败感模式存在分歧:物理学家和数据科学家表现出较高的挫败感,而化学和机械工程师表现出的挫败感极低。这可能反映了计算领域与实验领域在尝试将 AI 整合到核心研究工作流中的差异:工作需要现实世界互动的科学家可能尚未尝试将 AI 用于其核心科学实验。所有领域的信任度仍然相对较低,表明无论哪个学科都普遍存在对可靠性的担忧。与表达对 AI 影响高度担忧的创意专业人士不同,科学家的担忧水平相对较低。这与他们对 AI 完成假设生成和实验任务能力的挫败感表述相一致。

总体而言,科学家并不担心因 AI 而失业。一些人指出了难以数字化的隐性知识,一位微生物学家解释说:“我曾研究过一种细菌菌株,当细胞达到特定颜色时,你必须启动各个步骤。颜色的差异必须亲眼看到才能理解,而且 [说明] 很少写在任何地方。”其他人则强调了研究决策固有的人类属性,一位生物工程师表示:“实验和研究也……本质上取决于我”,并指出“不幸的是,研究过程的某些部分就是与 AI 不兼容,尽管它们是最方便自动化的部分,比如运行实验”。

外部约束也构成了 AI 替代的障碍——在涉密环境中工作的研究人员指出,“在组织允许我们使用智能体框架,甚至例如 LLM 之前,必须落实许多‘注意事项’和大量以安全为导向的流程。”一位管理有限资源的机械工程师解释说,虽然“AI 擅长提出实验设计”,但在现实中“我的大部分研究都有预算/时间/样本限制,所以‘理想’的设计并不总是可行的。”尽管如此,监管合规约束、对技能退化的担忧以及成本障碍在访谈中被提及的比例均不到 10%。

我希望能有一个感觉像是有价值的研究伙伴的 AI……它能带来一些新的东西。

91% 的科学家表示希望在研究中获得更多 AI 协助,即使他们觉得今天的产品并不符合要求。大约三分之一的人设想的协助主要在写作任务上,但大多数人希望在他们的所有研究中获得支持:批判实验设计、访问科学数据库和运行分析。一个共同的愿望是希望 AI 能够产生新的科学想法。一位医学科学家说:“我希望 AI 能够……帮助生成或支持假设,或者寻找对人类来说不那么显而易见的新颖相互作用/关系”。另一位也表达了同样的感受,他说:“我希望能有一个感觉像是有价值的研究伙伴的 AI……它能带来一些新的东西。”

展望未来

这次初步测试表明,Anthropic Interviewer 在规模化应用方面展现出了潜力——我们能够对 1250 名各类专业人士进行访谈,以了解他们对在工作中使用 AI 的感受。如果采用传统的“人工”访谈方法,涉及如此多参与者的研究将是昂贵且耗时的。

但 Anthropic Interviewer 的意义超越了方法论:它从根本上改变了我们可以提出和回答关于 AI 在社会中角色的哪些问题,以及关于任何话题的访谈如何在这种新规模下进行。我们使用 Anthropic Interviewer 大规模开展有意义研究的努力才刚刚开始。以前,我们只能洞察人们在聊天窗口内如何使用 Claude。我们不知道人们对使用 AI 有何感受,他们希望改变与该技术互动的哪些方面,或者他们如何设想 AI 在其生活中的未来角色。

这次初步调查的发现为我们提供了超越经济指数(Economic Index)工作的新见解,以了解人们如何在工作场所使用 AI。我们正在分享这些初步发现,以便与我们的经济咨询委员会(Economic Advisory Council)和高等教育咨询委员会(Higher Education Advisory Board)进行讨论。随着我们继续这项研究,我们将公开分享我们的试点结果,以及这些发现将如何指导我们未来的工作。

Anthropic Interviewer 是我们在关于 AI 模型开发的对话中以人类声音为中心的最新举措——这始于我们在集体宪法 AI(Collective Constitutional AI)方面的工作,该工作收集了公众观点以塑造 Claude 的行为。这些对话可以帮助我们改善 Claude 本身的性格和训练过程,并为 Anthropic 倡导和采用的未来政策提供参考。以下是我们为探索与特定社区合作而采取的一些实际步骤,帮助我们开发以他们的专业知识为基础的 AI:

  • 创意工作者。我们正在支持展览、研讨会和活动的开展,以了解 AI 如何增强创造力。我们与包括 LAS 艺术基金会(LAS Art Foundation)、森美术馆(Mori Art Museum)和泰特美术馆(Tate)在内的领先文化机构,以及 Rhizome 和 Socratica 等创意社区建立了合作伙伴关系。此外,我们正在与流行创意工具背后的公司合作,探索 Claude 如何通过模型上下文协议(Model Context Protocol)增强创意工作者的工作。

  • 科学家。我们正在与我们的“AI 赋能科学(AI for Science)”受资助者合作,以了解 AI 如何最好地服务于他们的研究。使用 Anthropic Interviewer,我们正在收集科学家对 AI 的看法以及他们对该项目的期望(我们还将使用保护隐私的分析工具来评估他们与 Claude 的对话是否符合这些期望)。结合定量和定性数据将帮助我们为科学家改进 Claude,并衡量我们资助的影响。

  • 教师。我们最近与美国教师联合会(AFT)合作,在 AI 能力日益增强的时代重塑教师培训。该项目旨在支持 40 万名教师进行 AI 教育,并在 AI 系统的开发中引入他们的观点。此外,我们还预览了 Anthropic Interviewer 关于 AI 如何改变 Anthropic 软件工程的一些发现。分享关于我们自身工作场所转型的定性故事,使我们发现软件工程师和教师之间有许多共同点,让大家聚在一起集思广益,探讨我们真正想要什么样的由 AI 引发的工作转型。

使用 Anthropic Interviewer,我们可以开展为特定政策提供参考的针对性研究、让不同社区参与 AI 对话的参与式研究,以及跟踪人类与 AI 之间不断演变关系的定期研究。

参与其中

我们将继续使用 Anthropic Interviewer,以更好地了解人们如何设想 AI 在其生活和工作中的角色。为此,我们正在启动一项公开的试点访谈,探索哪些经验、价值观和需求驱动了人们对 AI 在其生活中未来角色的愿景。

准备好分享您的观点了吗?您可以通过此链接参与 10-15 分钟的访谈,加入这项研究。我们计划分析这项研究中的匿名见解,作为我们社会影响研究的一部分,并发布一份关于这些数据见解的报告。有关此研究的更多信息,请参阅下文的常见问题解答(FAQ)部分。

结论与局限性

我们对 1250 名专业人士的访谈揭示了职场人士正在积极协调其与 AI 的关系。我们的参与者通常保留了对其职业认同感至关重要的任务,同时将常规工作交由 AI 处理以提高生产力。尽管存在同行的污名化和经济焦虑,创意工作者仍拥抱了 AI 的高效,而科学家则对将哪些研究任务委托给 AI 保持选择性。

我们开展这项研究是为了了解 AI 对人们生活的影响,而不仅仅局限于聊天窗口中发生的事情。像所有定性分析一样,我们对这些访谈的解释反映了我们选择提出的问题以及我们在数据中寻找的模式。通过公开这一大规模的访谈记录数据集,我们希望推进对人类与 AI 关系如何演变的集体理解。通过大规模部署 Anthropic Interviewer,我们可以在人们对 AI 的体验与我们如何开发 AI 之间建立一个反馈循环——目标是构建反映公众观点和需求的 AI 系统。

局限性

我们对 Anthropic Interviewer 的初步使用存在一些重要的局限性,这些局限性影响了我们发现的范围和普遍性。我们的发现应被解释为 AI 对工作影响的早期信号,而不是关于其对专业实践和认同感长期影响的最终结论。

  • 选择偏差。由于参与者是通过众包平台招募的,我们研究中参与者的经验可能与普通职场人士有很大不同,这使得回答偏向于对该主题更积极或更有经验的观点。

  • 需求特征。参与者知道他们正在接受 AI 系统关于其 AI 使用情况的访谈,与人类访谈相比,这可能会改变他们的参与意愿,或改变他们给出的回答类型。

  • 静态分析。我们捕捉了专业人士当前 AI 使用情况和态度的快照,但利用这些数据,我们无法追踪这些关系如何随时间发展,或者最初的热情如何随着使用的延长而改变。

  • 情感分析。由于 Anthropic Interviewer 仅支持文本,无法读取语气、面部表情或肢体语言,它可能会错过影响受访者陈述含义的情感线索。

  • 自我报告与客观衡量。我们在上文中指出,参与者对其 AI 使用情况的描述可能与其真实实践不同(正如在智能手机使用情况中发现的那样)。这可能是由于社会期望偏差、回忆不完美或围绕 AI 披露的职场规范不断演变所致。事实上,与实际使用数据相比,我们的访谈数据揭示了关键的差异。这种认知与实践之间的差距强化了自我报告中固有的模糊性:例如,访谈回答可能捕捉到了渴望的使用方式或社会期望效应。理解这些差异对于解释此类研究的发现至关重要。

  • 事实上,与实际使用数据相比,我们的访谈数据揭示了关键的差异。这种认知与实践之间的差距强化了自我报告中固有的模糊性:例如,访谈回答可能捕捉到了渴望的使用方式或社会期望效应。理解这些差异对于解释此类研究的发现至关重要。

  • 研究者解释。像所有定性研究一样,我们的分析反映了我们作为研究者的兴趣和观点。虽然我们使用了系统的方法来识别模式,但不同的研究人员可能会强调这些访谈的不同方面或得出其他结论。

  • 全球普遍性。我们的样本主要反映了西方工作者的情况,而全球不同背景下对 AI 的文化态度、职场动态和职业认同感可能存在显著差异。

  • 非实验性研究。尽管许多参与者报告了生产力的提高和质量的改善,但我们无法确定 AI 的使用是否直接导致了这些结果,也无法确定其他因素在多大程度上做出了贡献。

贡献与致谢

Kunal Handa 领导了该项目,设计并制作了 Anthropic Interviewer 的原型,执行了调查、访谈和数据分析,绘制了图表,并撰写了这篇博客文章。Michael Stern 领导了 Anthropic Interviewer 在 Claude.ai 中的实施,管理了项目时间表,并在整个过程中提供了反馈。Saffron Huang 领导了 Anthropic Interviewer 的公开试点。Jerry Hong 领导了 Anthropic Interviewer 的视觉设计,并为技术图表做出了贡献。Esin Durmus 参与了实验设计并提供了关键反馈。Miles McCain 共同领导了 Anthropic Interviewer 原型底层技术基础设施的实施。Grace Yun、AJ Alt 和 Thomas Millar 在 Claude.ai 中实施了 Anthropic Interviewer,并为公开试点提供了必要的技术基础设施。Alex Tamkin 对项目的早期迭代提供了关键反馈。Jane Leibrock 为 Anthropic Interviewer 的所有方法论做出了贡献。Stuart Ritchie 参与了博客文章的框架构建和撰写。Deep Ganguli 提供了关键的研究指导、反馈和组织支持。所有作者在整个过程中都提供了详细的指导和反馈。

此外,我们感谢 Sally Aldous、Drew Bent、Shan Carter、Jack Clark、Miriam Chaum、Jake Eaton、Matt Galivan、Savina Hawkins、Sarah Heck、Hanah Ho、Mo Julapalli、Matthew Kearney、Mike Krieger、Chelsea Larsson、Joel Lewenstein、Jennifer Martinez、Wes Mitchell、Jared Mueller、Christopher Nulty、Adam Pearce、Sarah Pollack、Ankur Rathi、Drew Roper、David Saunders、Kevin Troy、Molly Villagra、Brett Wittmershaus 和 Casey Yamaguma 提供的有益想法、讨论、反馈和支持。我们还要感谢 Matthew Conlen、Deb Roy 和 Diyi Yang 的评论、讨论和反馈。

引用

如果您想引用这篇文章,可以使用以下 Bibtex 键:

附录

参与者对 Anthropic Interviewer 的体验

访谈结束后,我们对参与者的访谈体验进行了调查。我们询问了:(1)您对这次对话有多满意?,(2)这次对话在多大程度上捕捉了您对 {该领域} 的想法?(两者均采用 1-7 李克特量表),以及(3)您会向其他人推荐这种访谈形式吗?(是/否)。

我们发现参与者对 Anthropic Interviewer 的评价非常积极。97.6% 的参与者将其满意度评为 5 或更高,其中 49.6% 给出了最高评分。同样,96.96% 的人认为对话很好地捕捉了他们的想法(评分为 5-7)。99.12% 的参与者表示他们会向其他人推荐这种访谈形式。

分享您的观点:常见问题解答(FAQ)

  1. 我们如何访问该研究?

从今天开始,如果您是在两周前注册的 Free、Pro 或 Max Claude.ai 订阅用户,您可能会在 Claude.ai 中注意到一个邀请您参与的弹窗。您可以通过以下链接访问:https://claude.ai/interviewer 。该研究将开放一周。

  1. 这项研究会问我什么?

我们将使用 Anthropic Interviewer 询问您对 AI 在您生活中角色的愿景,哪些经验、价值观和需求塑造了这一愿景,以及哪些因素可能会帮助或阻碍这一愿景。

  1. 你们将如何使用这些数据?

我们将分析这项研究的见解,作为我们社会影响研究的一部分,发布我们的发现,并利用这些发现以反映我们所学知识的方式改进我们的模型和服务。我们通过本研究收集的数据将被视为反馈(Feedback),并将根据我们的隐私政策(Privacy Policy)进行处理。我们还可能在发布的发现中包含匿名回复。了解更多。

  1. 为什么我在 Claude.ai 中没有看到 Anthropic Interviewer 的邀请?

该访谈仅适用于在 2 周前注册的现有 Claude.ai Free、Pro 和 Max 用户。

如果您有任何疑问,请通过我们帮助中心(Help Center)右下角的消息图标联系我们。

相关文档

关联主题