摘要

1) 一句话总结 在启动AI项目开发前,团队必须提前明确目标、制定可衡量的KPI并对齐风险容忍度,以确保产品能产生实际业务价值并有效应对大语言模型(LLM)的非确定性。

2) 关键要点

  • 评估的必要性:只有通过系统评估,才能验证AI产品是否真正有效并对业务或客户产生积极影响。
  • 提前明确目标:在动工前必须清晰界定AI的具体用途和成功标准,以避免后期因期望不一致而引发内部冲突。
  • 制定量化KPI:成功的愿景必须拆解为可衡量的关键绩效指标(KPI),不能依赖“感觉还行”等直觉或临时的试用反馈。
  • 系统化数据收集:必须系统性地规划测试场景并进行足够多次的运行,以获取具有统计学意义的评估结果。
  • 确保测量效度:必须在项目构建前设定好衡量标准,防止后期为了容易实现而选择性地操纵数据,确保衡量的是“真正重要的东西”。
  • 对齐风险容忍度:鉴于LLM的非确定性,组织必须在流程初期就风险容忍度进行坦诚沟通并达成共识。
  • 预判潜在问题:构建评估流程的过程也是提前思考并准备应对策略(如处理幻觉、工具误用等突发情况)的机会。

3) 风险/缺口

  • 内部冲突与资源浪费风险:如果在没有明确项目范围和成功标准的情况下盲目开发,后期极易爆发期望落空的内部冲突,导致时间、精力和资源的巨大浪费。
  • 评估失效风险:依赖抽查、用户主动反馈或仅测量容易获取的指标(缺乏测量效度),会导致评估结果无法真实代表大众的广泛体验,沦为伪科学的猜测。
  • 模型非确定性风险:LLM在相同输入下可能产生新奇、不受欢迎或极其怪异的响应(如幻觉、工具误用),企业必须接受并准备好应对模型无法100%按预期运行的失败模式。

正文

目前在企业中有一个很常见的场景:有人提议开发一款包含AI(例如基于大语言模型的智能体)的产品或功能,随后大家便开始讨论如何界定项目范围并进行开发。产品和工程团队通常对该工具的潜在用途及其能为企业带来的效益充满期待。然而,如果在场,项目提出后我想知道的第一件事就是:“我们打算如何评估它?”

有时这会引发一些疑问:AI评估真的重要或必要吗?能不能以后再说(甚至干脆不做)?

事实是:只有当你想知道AI是否真的有效时,你才需要进行评估。如果你不在乎产品对业务或客户的影响就直接发布,那确实可以跳过评估环节——但实际上,大多数企业是无法接受这一点的。没有人希望自己开发的东西连到底有没有用都不清楚。

因此,在开始构建AI之前,我们需要明确必须具备哪些前提条件,以便为后续的评估做好准备。

明确目标

这听起来可能显而易见,但你的AI到底要做什么?它的目的是什么?当它成功运作时,会是什么样子?

你可能会惊讶地发现,有很多人在没有想清楚这个问题的情况下,就盲目涉足AI产品的开发。但停下来认真思考这一点至关重要,因为只有清楚我们在构想项目成功时脑海中的画面,才能知道如何设置衡量这种成功的标准。

在动工前花时间思考这个问题也很重要,因为你可能会发现你和同事或领导在这个问题上其实存在分歧。很多组织仅仅因为觉得AI本身有价值,就在没有明确项目范围的情况下决定在产品中加入AI。随着项目推进,当一个人的期望得到满足而另一个人的期望落空时,关于“什么是成功”的内部冲突就会爆发。这会造成巨大的混乱,而且往往是在投入了大量时间、精力和资源后才显现出来。唯一的解决办法是:提前就你们试图实现的目标达成明确的共识。

制定关键绩效指标(KPI)

然而,仅仅在脑海中构想一个AI产品成功运作的场景是不够的。这个愿景需要被拆解成可衡量的形式(如KPI),以便我们后续构建所需的评估工具来进行计算。

虽然定性或临时的数据有助于初步了解情况或进行“嗅觉测试”,但如果没有系统的计划和流程,仅靠让人临时试用AI工具,是无法产生足够且正确的信息来概括产品是否成功的。

当我们在评估项目结果时依赖“感觉还行”或“没人抱怨”这种直觉,既懒惰又无效。收集数据以获得具有统计学意义的项目结果图景可能耗时且昂贵,但如果不这么做,就只能对运行效果进行伪科学的猜测。你不能指望抽查或用户主动提供的反馈能真实代表大众的广泛体验。人们通常懒得主动反馈他们的好坏体验,因此你需要以系统的方式去询问他们。

此外,基于LLM工具的测试用例不能临时编造——你需要确定你关注的场景,定义能捕捉这些场景的测试,并进行足够多次的运行,以确保对结果的范围有信心。虽然定义和运行测试是后话,但你现在就需要识别使用场景并开始规划。

在开局前设定好“球门”

在开始前思考评估和衡量标准也很重要,这样可以防止你和你的团队在有意无意间操纵数据。如果在项目构建或部署后才确定KPI,很容易让人倾向于选择那些更容易衡量或更容易实现的指标。

在社会科学研究中,有一个概念区分了“你能衡量的东西”和“真正重要的东西”,即“测量效度”(measurement validity)。例如,如果你想在一项研究中衡量人们的健康状况,以确定你的干预措施是否改善了他们的健康,你需要定义在这种语境下“健康”意味着什么,将其拆解,并对健康所包含的不同组成部分进行大量测量。如果为了省时省钱,你仅仅测量身高体重并计算BMI,那你就缺乏测量效度。BMI可能与健康有一定关系,但它绝不是一个全面的衡量标准。健康不能仅靠BMI这样廉价且容易获取的指标来衡量。

因此,在将成功的愿景转化为实际目标后,你需要将其正式化,并拆解为可衡量的目标。你定义的KPI后续可能需要进一步细化,但在AI工具的开发工作开始前,总会有一些你无法预知的信息。在动工前,请尽最大努力设定好你要追求的目标,并坚持下去。

思考与容忍风险

特别是对于基于LLM的技术,我认为在着手之前,组织内部必须就“风险容忍度”进行一次非常坦诚的对话。

建议将风险讨论放在流程的初始阶段,因为就像定义成功一样,这可能会暴露出项目参与者在思维上的差异,而这些差异必须在AI项目推进前得到解决。这甚至会影响你对成功的定义,也会影响你后续创建的测试类型。

LLM是非确定性的,这意味着在相同输入下,它们在不同情况下的响应可能不同。对企业而言,这意味着你必须接受一种风险:LLM对特定输入的响应有时可能是新奇的、不受欢迎的,甚至是极其怪异的。你无法永远百分之百地保证AI智能体或LLM会按照你的预期运行。即使它在100次中有99次符合预期,你也需要弄清楚那第100次异常情况的特征,了解失败或错误模式,并决定你是否能接受这种风险——这也是AI评估的目的之一。

结语

我明白,在任何人写下第一行代码之前,这就已经是一长串待办事项了。然而,正是由于我所描述的LLM固有的非确定性特征,AI项目的评估比许多其他类型的软件项目更为重要。

要打造一个能产生价值并改善业务的AI项目,需要严密的审查、规划,以及对“你希望实现什么”和“你将如何处理突发情况”进行诚实的自我评估。在构建AI评估的过程中,你将有机会思考可能出现的问题(如幻觉、工具误用等),并确定这些问题发生的时间点,从而既能减少其发生频率,又能在问题真正出现时做好准备。

关联主题