Anthropic 如何评估其计算机操作模型

摘要

一句话总结 Anthropic 推出了全新的计算机操作模型 Sonnet 4.6，并利用 Kernel 的浏览器基础设施，通过在 254 个真实网站上寻找登录页面的任务对其进行了严格的规模化评估。

关键点

Anthropic 正式发布 Sonnet 4.6，为“计算机操作模型”的能力设定了新标杆。
为了在真实且结构混乱的网络环境中评估模型，Anthropic 选择依靠 Kernel 进行压力测试。
评估基于 Kernel 的 Managed Auth 功能，利用专用智能体在互联网上寻找目标网站的登录页面。
任务的成功标准是明确的二元判定（成功到达或未到达），非常适合用于真实世界的压力测试。
测试规模涵盖了 254 个不同的网站，其中包含了互联网上极其复杂的登录页面。
测试结果显示，Sonnet 4.6 成功到达登录页面的比例高达 79.1%，是参测模型中最准确的。
这是 Kernel 与 Anthropic 在评估计算机操作模型方面的首步合作，旨在为模型提供快速、可靠的底层浏览器基础设施。
Sonnet 4.6 目前已在 Kernel 平台上开放，供用户实际体验和使用。

正文

今天，Anthropic 正式推出了 Sonnet 4.6，这款模型的发布为“计算机操作模型”（computer use models）的能力设定了新的标杆。要在规模化的情况下评估这类模型，就必须让它们去应对真实且结构混乱的网站。正因如此，Anthropic 选择依靠 Kernel 来对 Sonnet 4.6 进行严格的测试。

寻找互联网上最棘手的登录页面

我们最近发布了 Managed Auth，这是一种标准化的方法，旨在让智能体（agents）能够在整个互联网上实现登录并保持登录状态。该功能包含一个专门的智能体，其唯一任务就是利用我们的浏览器基础设施来寻找目标网站的登录页面。

这项任务的成功标准是二元的：智能体要么成功到达了登录页面，要么没有。这种明确的判定标准使其成为对 Sonnet 4.6 进行真实世界压力测试的完美选择。

为此，我们构建了一个专注于“寻找登录页面”的评估测试：

测试规模：涵盖 254 个不同的网站。
测试难度：包含了我们在互联网上遇到过的一些最令人头疼的复杂登录页面。
测试过程：我们在多个 Anthropic 模型上运行了此评估，并测量了每个模型实际到达正确页面的频率。

测试结果：在这个基准测试中，Sonnet 4.6 成功到达登录页面的比例高达 79.1%，脱颖而出成为最准确的模型。

测试结果图表

现已开放使用

这是我们与 Anthropic 在评估计算机操作模型方面合作的第一步。随着这些模型在代表用户浏览互联网方面变得越来越强大，它们需要快速、可靠的浏览器基础设施来提供底层支持。

您今天就可以在 Kernel 上使用 Sonnet 4.6，亲自体验它的实际表现。

wsl-docs

探索

Anthropic 如何评估其计算机操作模型

摘要

正文

寻找互联网上最棘手的登录页面

现已开放使用

关联主题

关系图谱

目录