摘要

微软开源了 Evals for Agent Interop 入门套件，旨在帮助企业通过系统化、可重复的基准测试来评估 AI 代理在真实数字工作场景中的互操作性和性能。

正文

微软近期推出了 Evals for Agent Interop，这是一个开源入门套件，旨在帮助开发者和组织评估 AI 代理在现实数字工作场景中的互操作性。这一举措反映了随着代理式 AI 系统进入企业工作流，行业正转向对其进行系统化、可重复的评估。

构建由大型语言模型驱动的自主代理，给企业带来了传统测试方法无法解决的新挑战。由于代理的行为具有概率性，需要与应用程序深度集成并在不同工具之间进行协调，孤立的准确性指标已不足以了解其在现实世界中的表现。

在企业环境中，代理可能会直接影响业务流程、合规性和安全性。因此，代理评估已成为 AI 开发中的一门关键学科。现代评估框架不仅致力于衡量最终结果，还致力于衡量行为模式、上下文感知以及多步任务的弹性。

Evals for Agent Interop 入门套件旨在为团队提供一个可重复、透明的评估基准，其核心特性包括：

多维度评估工具：附带模板化的声明式评估规范（以 JSON 文件的形式）和一个评估工具。该工具可测量模式遵循度（schema adherence）和工具调用正确性等信号，并结合经过校准的 AI 裁判评估，以衡量连贯性和有用性等质量。
覆盖真实工作场景：团队可以在电子邮件、日历、文档和协作工具等界面上对代理运行该工具。套件最初侧重于电子邮件和日历交互场景，未来计划扩展更丰富的评分功能、额外的裁判选项以及对更广泛代理工作流的支持。
排行榜比较洞察：套件包含了一个排行榜概念，用于比较使用不同技术栈和模型变体构建的“稻草人（strawman）”代理。这有助于组织可视化相对性能，及早发现故障模式，并在广泛推广前做出更明智的决策。

该项目的入门代码已在 GitHub 仓库下开源托管，展示了运行测试和对多个候选代理进行正面比较所需的评估工件和工具组件。

开发者可以通过以下步骤快速上手：

克隆仓库：获取 Evals for Agent Interop 的项目代码。
本地部署：该套件作为包含三个镜像的 Docker compose 集合进行部署，使开发者能够轻松地在本地执行。
运行与定制：运行内置的评估场景对代理进行基准测试。开发者还可以根据其特定领域定制评分标准（rubrics），重新运行测试，并观察代理行为在不同约束下如何变化。