Open-AutoGLM：开源手机端智能助理系统，自动规划并执行 Android、HarmonyOS 和 iOS 设备操作任务

摘要

Open-AutoGLM 是一个基于视觉语言模型构建的开源手机端智能助理框架，能够通过自然语言指令自动规划并执行 Android、HarmonyOS 和 iOS 设备上的操作任务。

核心工作流：通过多模态模型感知手机屏幕内容，解析用户自然语言意图，并利用 ADB（Android）或 HDC（HarmonyOS）自动执行点击、滑动、输入等操作。
多平台支持：原生支持 Android 7.0+ 和 HarmonyOS NEXT+ 设备，并提供专门的 iOS 环境配置指南（基于 WebDriverAgent）。
模型版本：开源了针对中文优化的 AutoGLM-Phone-9B 和支持英文等场景的 AutoGLM-Phone-9B-Multilingual 模型。
部署方式：支持使用 vLLM 或 SGLang 进行本地私有化部署，也支持直接调用智谱 BigModel 或 ModelScope 的第三方 API 服务。
应用兼容性：目前已支持 50+ 款主流 Android 中文应用以及 60+ 款 HarmonyOS 原生和系统应用。
高级特性：内置敏感操作确认机制，支持在登录或验证码场景下进行人工接管（Take_over），并支持通过 WiFi 进行远程设备调试与控制。
生态集成：已完成与视觉驱动的开源 UI 自动化 SDK Midscene.js 的适配。
基础信息：项目主要使用 Python 开发（建议 3.10+），采用 Apache License 2.0 开源协议，目前在 GitHub 拥有超 2.3 万 Stars。

合规限制：官方明确声明本项目仅供研究和学习使用，严禁用于非法获取信息、干扰系统或任何违法活动。
敏感页面限制：在遇到支付、密码、银行类等敏感页面时，系统截图会失败（黑屏），此时需要人工接管。
设备配置要求：部分 Android 机型必须同时开启“USB 调试”和“USB 调试(安全设置)”才能正常执行点击操作；部分机型在设置开发者选项后需重启才能生效。
模型部署风险：在测试模型部署时，如果输出的思维链（Think）长度很短或出现乱码，通常意味着模型部署失败，需重新检查配置和依赖。

An Open Phone Agent Model & Framework. Unlocking the AI Phone for Everyone