xiaozhi-esp32：面向 ESP32 的智能体语音项目

摘要

1) 一句话总结 这是一个基于ESP32和MCP协议的开源AI语音聊天机器人项目，通过流式ASR+LLM+TTS架构结合大语言模型（如Qwen/DeepSeek），实现多端硬件控制与智能语音交互。

2) 核心要点

项目基础：采用C++开发，基于MIT协议开源，目前在GitHub拥有超2.4万Stars，最新版本为v2.2.3。
核心架构：采用流式ASR+LLM+TTS架构，支持离线语音唤醒（基于ESP-SR）和当前说话人声纹识别（基于3D Speaker）。
通信与协议：支持Websocket或MQTT+UDP两种通信协议，采用OPUS音频编码，支持Wi-Fi及ML307 Cat.1 4G网络。
MCP多端控制：内置端侧MCP（用于控制扬声器、LED、舵机、GPIO等硬件）与云侧MCP（扩展智能家居控制、PC桌面操作、知识搜索、邮件等大模型能力）。
硬件兼容性：支持ESP32-C3、ESP32-S3、ESP32-P4芯片平台，兼容70多款开源硬件（如立创开发板、M5Stack、Waveshare等），并支持面包板DIY。
功能特性：支持中、英、日多语言，具备OLED/LCD屏幕及表情显示、电池电量显示与电源管理功能，并提供Web端在线工具自定义唤醒词和UI素材。
开发与部署：提供适合初学者的免开发环境固件（默认连接官方服务器，个人用户可免费使用Qwen实时模型）；二次开发需使用ESP-IDF 5.4及以上版本，推荐Linux环境并要求遵循Google C++代码规范。

3) 风险/不足

版本升级限制：当前的v2版本与v1版本的分区表不兼容，无法通过OTA（空中下载技术）从v1直接升级到v2，运行v1的硬件必须通过手动烧录固件才能完成升级。

An MCP-based chatbot | 一个基于MCP的聊天机器人