摘要

1) 一句话总结 苹果推出了仅有30亿参数的端侧AI智能体 Ferret-UI Lite,通过动态裁剪和多智能体自主生成数据等技术,在本地实现了媲美大型模型的App自动交互能力,并提供了极佳的隐私保护。

2) 核心要点

  • 轻量化与高性能:Ferret-UI Lite 仅有30亿参数,专为端侧(On-device)运行设计,其基准测试表现可媲美甚至超越参数量大24倍的大型 GUI 智能体模型。
  • 模型家族背景:属于苹果 Ferret 多模态大模型(MLLM)家族,专门针对移动端 UI(长纵横比、小目标对象)的理解与交互进行了优化。
  • 动态裁剪与放大技术:在推理时采用“初步预测-裁剪-重新预测”的机制,有效弥补了小参数模型在处理大量图像 Token 时能力的不足。
  • 自主生成训练数据:构建了包含课程任务生成器、规划智能体、定位智能体和评估模型的多智能体系统,直接与实时 GUI 平台交互以大规模生成合成训练数据。
  • 捕捉真实交互场景:该训练管道能够有效捕捉现实世界交互中的模糊性(如操作错误、意外状态及恢复策略),比纯人工标注数据更全面。
  • 训练与微调技术:结合了真实与合成训练数据,并采用了监督微调(SFT)和强化学习(RL)技术。
  • 跨平台评估:模型主要在 Android、Web 和桌面 GUI 环境(如 AndroidWorld 和 OSWorld)中进行训练和评估。
  • 隐私保护优势:作为本地化智能体,所有交互操作均在设备端完成,无需将数据发送至云端或远程服务器,从本质上保障了用户隐私。

3) 风险与不足

  • 复杂任务处理能力受限:受限于设备端算力与模型体量,Ferret-UI Lite 在短期、低级别的任务中表现出色,但在复杂的多步交互中表现稍逊。

正文

尽管只有 30 亿个参数,苹果最新推出的 Ferret-UI Lite 模型的基准测试表现却能媲美甚至超越比其大 24 倍的大型模型。以下是该技术的详细解析。

Ferret 模型家族背景

2023 年 12 月,一个由 9 名研究人员组成的团队发表了一项名为“FERRET”的研究。他们提出了一种多模态大型语言模型(MLLM),该模型能够理解自然语言对图像特定部分的引用。

Ferret 模型

此后,苹果发表了一系列后续论文,不断扩展 Ferret 模型家族,包括 Ferretv2、Ferret-UI 以及 Ferret-UI 2。

其中,Ferret-UI 变体在初代 FERRET 的基础上进行了扩展,专门为了克服通用领域 MLLM 在理解和与用户界面(UI)交互时的短板而训练。由于移动端 UI 屏幕通常具有较长的纵横比,且包含较小的目标对象(如图标、文本),Ferret-UI 在原有基础上引入了“任意分辨率”功能,以放大细节并利用增强的视觉特征。

Ferret-UI 模型

初代的 Ferret-UI 研究还展示了一项有趣的应用:用户可以通过与模型对话,来更好地了解如何与当前界面进行交互。

随后,Ferret-UI 基于 130 亿参数模型构建,主要侧重于移动端 UI 理解和固定分辨率截图;而 Ferret-UI 2 则进一步将系统扩展至支持多平台和更高分辨率的感知。

专为端侧打造的 Ferret-UI Lite

日前,苹果通过一项名为《Ferret-UI Lite:构建小型端侧 GUI 智能体的经验》的研究,进一步壮大了 Ferret-UI 家族。

研究人员指出,现有的 GUI 智能体大多依赖于大型服务器端基础模型。虽然这些大模型凭借强大的推理和规划能力在各种 GUI 导航任务中表现出色,但它们体积过于庞大且计算需求极高,难以在设备端(On-device)流畅运行。

为此,他们开发了 Ferret-UI Lite。这是一款仅有 30 亿参数的轻量化变体,专为端侧运行设计,同时在性能上保持了与大型 GUI 智能体相当的竞争力。

Ferret-UI Lite 的核心技术包括:

  • 利用来自多个 GUI 领域的真实和合成训练数据;
  • 采用动态(推理时)裁剪和放大技术,以更好地理解 GUI 的特定片段;
  • 结合监督微调(SFT)和强化学习(RL)技术。

得益于这些设计,该模型的表现能够紧跟甚至超越参数量高达其 24 倍的竞品 GUI 智能体模型。

Ferret-UI Lite 模型

核心亮点:动态裁剪与自主生成训练数据

虽然该研究中详述的整体架构非常引人注目,但其实时裁剪与放大技术尤为值得关注。

模型会先进行初步预测,然后围绕预测区域进行裁剪,并在该裁剪区域上重新进行预测。这种机制极大地帮助了小参数模型弥补其在处理大量图像 Token 时能力有限的不足。

Ferret-UI Lite 裁剪技术

该论文的另一个重大贡献在于,Ferret-UI Lite 基本上能够自主生成训练数据。研究人员构建了一个多智能体系统,直接与实时 GUI 平台交互,从而大规模生成合成训练示例。该系统包含:

  • 课程任务生成器:负责提出难度递增的目标;
  • 规划智能体:将目标分解为具体的执行步骤;
  • 定位智能体:在屏幕上实际执行这些步骤;
  • 评估模型:对执行结果进行评价。

Ferret-UI Lite 训练管道

通过这一管道,训练系统能够有效捕捉现实世界交互中的模糊性(例如操作错误、意外状态以及恢复策略),这比单纯依赖纯净的人工标注数据要全面且有效得多。

评估结果与隐私优势

有趣的是,虽然之前的 Ferret-UI 和 Ferret-UI 2 使用 iPhone 截图和苹果界面进行评估,但 Ferret-UI Lite 是在 Android、Web 和桌面 GUI 环境(如 AndroidWorld 和 OSWorld)中进行训练和评估的。研究人员并未明确说明选择此路线的原因,但这很可能反映了目前业界可用的、可复现的大规模 GUI 智能体测试平台的现状。

研究发现,Ferret-UI Lite 在短期、低级别的任务中表现出色,但在复杂的多步交互中表现稍逊。考虑到这是一个受限于设备端算力的小型模型,这种权衡完全在预料之中。

最重要的是,Ferret-UI Lite 提供了一个本地化的智能体,能够根据用户请求自主与 App 界面进行交互。由于所有操作都在本地完成,无需将数据发送到云端或远程服务器处理,它在本质上为用户提供了极佳的隐私保护。

相关文档

关联主题