苹果研发端侧AI智能体：可自动与App交互的 Ferret-UI Lite

摘要

1) 一句话总结 苹果推出了仅有30亿参数的端侧AI智能体 Ferret-UI Lite，通过动态裁剪和多智能体自主生成数据等技术，在本地实现了媲美大型模型的App自动交互能力，并提供了极佳的隐私保护。

2) 核心要点

轻量化与高性能：Ferret-UI Lite 仅有30亿参数，专为端侧（On-device）运行设计，其基准测试表现可媲美甚至超越参数量大24倍的大型 GUI 智能体模型。
模型家族背景：属于苹果 Ferret 多模态大模型（MLLM）家族，专门针对移动端 UI（长纵横比、小目标对象）的理解与交互进行了优化。
动态裁剪与放大技术：在推理时采用“初步预测-裁剪-重新预测”的机制，有效弥补了小参数模型在处理大量图像 Token 时能力的不足。
自主生成训练数据：构建了包含课程任务生成器、规划智能体、定位智能体和评估模型的多智能体系统，直接与实时 GUI 平台交互以大规模生成合成训练数据。
捕捉真实交互场景：该训练管道能够有效捕捉现实世界交互中的模糊性（如操作错误、意外状态及恢复策略），比纯人工标注数据更全面。
训练与微调技术：结合了真实与合成训练数据，并采用了监督微调（SFT）和强化学习（RL）技术。
跨平台评估：模型主要在 Android、Web 和桌面 GUI 环境（如 AndroidWorld 和 OSWorld）中进行训练和评估。
隐私保护优势：作为本地化智能体，所有交互操作均在设备端完成，无需将数据发送至云端或远程服务器，从本质上保障了用户隐私。

3) 风险与不足

复杂任务处理能力受限：受限于设备端算力与模型体量，Ferret-UI Lite 在短期、低级别的任务中表现出色，但在复杂的多步交互中表现稍逊。

正文

尽管只有 30 亿个参数，苹果最新推出的 Ferret-UI Lite 模型的基准测试表现却能媲美甚至超越比其大 24 倍的大型模型。以下是该技术的详细解析。

Ferret 模型家族背景

2023 年 12 月，一个由 9 名研究人员组成的团队发表了一项名为“FERRET”的研究。他们提出了一种多模态大型语言模型（MLLM），该模型能够理解自然语言对图像特定部分的引用。

Ferret 模型

此后，苹果发表了一系列后续论文，不断扩展 Ferret 模型家族，包括 Ferretv2、Ferret-UI 以及 Ferret-UI 2。

其中，Ferret-UI 变体在初代 FERRET 的基础上进行了扩展，专门为了克服通用领域 MLLM 在理解和与用户界面（UI）交互时的短板而训练。由于移动端 UI 屏幕通常具有较长的纵横比，且包含较小的目标对象（如图标、文本），Ferret-UI 在原有基础上引入了“任意分辨率”功能，以放大细节并利用增强的视觉特征。

Ferret-UI 模型

初代的 Ferret-UI 研究还展示了一项有趣的应用：用户可以通过与模型对话，来更好地了解如何与当前界面进行交互。

随后，Ferret-UI 基于 130 亿参数模型构建，主要侧重于移动端 UI 理解和固定分辨率截图；而 Ferret-UI 2 则进一步将系统扩展至支持多平台和更高分辨率的感知。

专为端侧打造的 Ferret-UI Lite

日前，苹果通过一项名为《Ferret-UI Lite：构建小型端侧 GUI 智能体的经验》的研究，进一步壮大了 Ferret-UI 家族。

研究人员指出，现有的 GUI 智能体大多依赖于大型服务器端基础模型。虽然这些大模型凭借强大的推理和规划能力在各种 GUI 导航任务中表现出色，但它们体积过于庞大且计算需求极高，难以在设备端（On-device）流畅运行。

为此，他们开发了 Ferret-UI Lite。这是一款仅有 30 亿参数的轻量化变体，专为端侧运行设计，同时在性能上保持了与大型 GUI 智能体相当的竞争力。

Ferret-UI Lite 的核心技术包括：

利用来自多个 GUI 领域的真实和合成训练数据；
采用动态（推理时）裁剪和放大技术，以更好地理解 GUI 的特定片段；
结合监督微调（SFT）和强化学习（RL）技术。

得益于这些设计，该模型的表现能够紧跟甚至超越参数量高达其 24 倍的竞品 GUI 智能体模型。

Ferret-UI Lite 模型

核心亮点：动态裁剪与自主生成训练数据

虽然该研究中详述的整体架构非常引人注目，但其实时裁剪与放大技术尤为值得关注。

模型会先进行初步预测，然后围绕预测区域进行裁剪，并在该裁剪区域上重新进行预测。这种机制极大地帮助了小参数模型弥补其在处理大量图像 Token 时能力有限的不足。

Ferret-UI Lite 裁剪技术

该论文的另一个重大贡献在于，Ferret-UI Lite 基本上能够自主生成训练数据。研究人员构建了一个多智能体系统，直接与实时 GUI 平台交互，从而大规模生成合成训练示例。该系统包含：

课程任务生成器：负责提出难度递增的目标；
规划智能体：将目标分解为具体的执行步骤；
定位智能体：在屏幕上实际执行这些步骤；
评估模型：对执行结果进行评价。

Ferret-UI Lite 训练管道

通过这一管道，训练系统能够有效捕捉现实世界交互中的模糊性（例如操作错误、意外状态以及恢复策略），这比单纯依赖纯净的人工标注数据要全面且有效得多。

评估结果与隐私优势

有趣的是，虽然之前的 Ferret-UI 和 Ferret-UI 2 使用 iPhone 截图和苹果界面进行评估，但 Ferret-UI Lite 是在 Android、Web 和桌面 GUI 环境（如 AndroidWorld 和 OSWorld）中进行训练和评估的。研究人员并未明确说明选择此路线的原因，但这很可能反映了目前业界可用的、可复现的大规模 GUI 智能体测试平台的现状。

研究发现，Ferret-UI Lite 在短期、低级别的任务中表现出色，但在复杂的多步交互中表现稍逊。考虑到这是一个受限于设备端算力的小型模型，这种权衡完全在预料之中。

最重要的是，Ferret-UI Lite 提供了一个本地化的智能体，能够根据用户请求自主与 App 界面进行交互。由于所有操作都在本地完成，无需将数据发送到云端或远程服务器处理，它在本质上为用户提供了极佳的隐私保护。

wsl-docs

探索

苹果研发端侧AI智能体：可自动与App交互的 Ferret-UI Lite

摘要

正文

Ferret 模型家族背景

专为端侧打造的 Ferret-UI Lite

核心亮点：动态裁剪与自主生成训练数据

评估结果与隐私优势

相关文档

关联主题

关系图谱

目录