摘要
1) 一句话总结 这是一个基于ESP32和MCP协议的开源AI语音聊天机器人项目,通过流式ASR+LLM+TTS架构结合大语言模型(如Qwen/DeepSeek),实现多端硬件控制与智能语音交互。
2) 核心要点
- 项目基础:采用C++开发,基于MIT协议开源,目前在GitHub拥有超2.4万Stars,最新版本为v2.2.3。
- 核心架构:采用流式ASR+LLM+TTS架构,支持离线语音唤醒(基于ESP-SR)和当前说话人声纹识别(基于3D Speaker)。
- 通信与协议:支持Websocket或MQTT+UDP两种通信协议,采用OPUS音频编码,支持Wi-Fi及ML307 Cat.1 4G网络。
- MCP多端控制:内置端侧MCP(用于控制扬声器、LED、舵机、GPIO等硬件)与云侧MCP(扩展智能家居控制、PC桌面操作、知识搜索、邮件等大模型能力)。
- 硬件兼容性:支持ESP32-C3、ESP32-S3、ESP32-P4芯片平台,兼容70多款开源硬件(如立创开发板、M5Stack、Waveshare等),并支持面包板DIY。
- 功能特性:支持中、英、日多语言,具备OLED/LCD屏幕及表情显示、电池电量显示与电源管理功能,并提供Web端在线工具自定义唤醒词和UI素材。
- 开发与部署:提供适合初学者的免开发环境固件(默认连接官方服务器,个人用户可免费使用Qwen实时模型);二次开发需使用ESP-IDF 5.4及以上版本,推荐Linux环境并要求遵循Google C++代码规范。
3) 风险/不足
- 版本升级限制:当前的v2版本与v1版本的分区表不兼容,无法通过OTA(空中下载技术)从v1直接升级到v2,运行v1的硬件必须通过手动烧录固件才能完成升级。
功能与定位
An MCP-based chatbot | 一个基于MCP的聊天机器人
典型使用场景
- 用于快速搭建 AI 应用、工作流或服务化能力。
- 作为上层产品的能力底座,统一模型调用与业务集成。
核心功能
- 提供应用框架或平台化能力。
- 支持模型接入、流程编排或接口服务化。
- 面向开发与部署提供基础工程支持。
特色与差异点
- 仓库长期活跃,最近更新时间为 2026-02-22T12:22:42Z。
- 项目创建于 2024-08-31T10:08:16Z,具备持续迭代与社区沉淀。
- 以
C++为主语言,聚焦该技术栈的工程实践。
使用方式概览
- 阅读仓库 README 与官方文档,确认适配场景与依赖条件。
- 按项目推荐方式完成安装与初始化,再从示例或最小流程开始验证。
- 在生产使用前补齐权限控制、日志监控和版本固定策略。
限制与注意事项
- 使用前应先核对许可证、项目维护状态与安全边界。
链接
- 仓库:https://github.com/78/xiaozhi-esp32
- 官网:https://xiaozhi.me
- README:https://raw.githubusercontent.com/78/xiaozhi-esp32/main/README.md
- Releases:https://github.com/78/xiaozhi-esp32/releases