摘要

1) 一句话总结 这是一个基于ESP32和MCP协议的开源AI语音聊天机器人项目,通过流式ASR+LLM+TTS架构结合大语言模型(如Qwen/DeepSeek),实现多端硬件控制与智能语音交互。

2) 核心要点

  • 项目基础:采用C++开发,基于MIT协议开源,目前在GitHub拥有超2.4万Stars,最新版本为v2.2.3。
  • 核心架构:采用流式ASR+LLM+TTS架构,支持离线语音唤醒(基于ESP-SR)和当前说话人声纹识别(基于3D Speaker)。
  • 通信与协议:支持Websocket或MQTT+UDP两种通信协议,采用OPUS音频编码,支持Wi-Fi及ML307 Cat.1 4G网络。
  • MCP多端控制:内置端侧MCP(用于控制扬声器、LED、舵机、GPIO等硬件)与云侧MCP(扩展智能家居控制、PC桌面操作、知识搜索、邮件等大模型能力)。
  • 硬件兼容性:支持ESP32-C3、ESP32-S3、ESP32-P4芯片平台,兼容70多款开源硬件(如立创开发板、M5Stack、Waveshare等),并支持面包板DIY。
  • 功能特性:支持中、英、日多语言,具备OLED/LCD屏幕及表情显示、电池电量显示与电源管理功能,并提供Web端在线工具自定义唤醒词和UI素材。
  • 开发与部署:提供适合初学者的免开发环境固件(默认连接官方服务器,个人用户可免费使用Qwen实时模型);二次开发需使用ESP-IDF 5.4及以上版本,推荐Linux环境并要求遵循Google C++代码规范。

3) 风险/不足

  • 版本升级限制:当前的v2版本与v1版本的分区表不兼容,无法通过OTA(空中下载技术)从v1直接升级到v2,运行v1的硬件必须通过手动烧录固件才能完成升级。

功能与定位

An MCP-based chatbot | 一个基于MCP的聊天机器人

典型使用场景

  • 用于快速搭建 AI 应用、工作流或服务化能力。
  • 作为上层产品的能力底座,统一模型调用与业务集成。

核心功能

  • 提供应用框架或平台化能力。
  • 支持模型接入、流程编排或接口服务化。
  • 面向开发与部署提供基础工程支持。

特色与差异点

  • 仓库长期活跃,最近更新时间为 2026-02-22T12:22:42Z。
  • 项目创建于 2024-08-31T10:08:16Z,具备持续迭代与社区沉淀。
  • C++ 为主语言,聚焦该技术栈的工程实践。

使用方式概览

  1. 阅读仓库 README 与官方文档,确认适配场景与依赖条件。
  2. 按项目推荐方式完成安装与初始化,再从示例或最小流程开始验证。
  3. 在生产使用前补齐权限控制、日志监控和版本固定策略。

限制与注意事项

  • 使用前应先核对许可证、项目维护状态与安全边界。

链接

关联主题