摘要

BrowserMCP 是一个结合 MCP 服务器与 Chrome 扩展的本地浏览器自动化服务,允许 AI 助手(如 Claude、Cursor、VS Code 等)直接控制用户本地浏览器会话并复用已登录状态。项目提供页面导航、元素交互、ARIA 快照、截图和控制台日志能力,通过 WebSocket 在 MCP 服务器与浏览器扩展之间通信。当前开源仓库依赖其内部 Monorepo 工作区,无法独立构建;此外,关于反爬与验证码规避能力属于官方定位声明,不应视为绝对保证。

功能与定位

BrowserMCP/mcp 是 BrowserMCP 体系中的 MCP 服务端核心代码,采用“本地 MCP 服务器 + 浏览器扩展”的协作方式,把 AI 助手发起的自动化请求映射为真实浏览器会话中的操作。

典型使用场景

  • 让 AI 助手在本地浏览器中执行导航、点击、输入、选择等页面操作。
  • 在“已登录”的真实用户会话中完成网页任务,而不是创建独立无状态浏览器实例。
  • 在自动化流程中同时获取页面结构快照、截图或控制台日志,辅助诊断与校验。

核心功能

  • 页面导航:跳转、后退、前进。
  • 页面交互:点击、悬停、输入、下拉选择。
  • 状态采集:交互后返回 ARIA 快照。
  • 诊断能力:返回浏览器截图(image/png)与控制台日志文本。
  • 基础控制:按键与等待。

特色与差异点

  • 本地执行:自动化动作在本机完成,避免远程浏览器中转。
  • 会话复用:可复用用户当前浏览器状态与登录上下文。
  • 集成定位:面向 MCP 生态,便于接入支持 MCP 的 AI 客户端。

使用方式概览

该仓库中的 MCP 服务通过标准输入输出通道对外提供能力,并通过内置 WebSocket 与浏览器扩展通信。运行时需要先在浏览器侧建立扩展连接;若未连接标签页,服务会返回“未连接浏览器扩展”的错误并中止相关操作。

限制与注意事项

  • 仓库可构建性限制:项目维护方在 README 中明确说明,该仓库当前依赖内部 Monorepo 的工具与类型,不能单独完整构建。
  • 运行依赖:自动化能力依赖本地浏览器扩展连接状态。
  • 边界说明:关于“规避基础 Bot 检测或验证码”的描述仅是官方定位信息,效果受站点策略与环境影响,不应作为保证。

链接

关联主题