exo：AI 推理基础设施与多设备协同运行大模型

摘要

exo 是一个基于 Python 的开源 AI 推理基础设施，能够将多个本地设备自动连接成 AI 集群，通过拓扑感知和张量并行技术高效运行超大参数的前沿 AI 模型。

项目基础：采用 Apache 2.0 开源协议，主要使用 Python 开发，在 GitHub 上拥有超 4.1 万 Stars，定位为 AI 模型与推理基础设施。
核心功能：将多台设备组合成集群，突破单台设备的显存限制，且随着设备增加可提升模型运行速度。
自动设备发现：运行 exo 的设备会自动相互发现并组网，无需任何手动配置。
极低延迟通信：原生（Day-0）支持基于雷电 5（Thunderbolt 5）的 RDMA，使设备间的网络延迟降低 99%。
智能并行策略：
- 拓扑感知自动并行：根据实时设备拓扑（设备资源、网络延迟和带宽）自动计算最优的模型拆分方案。
- 张量并行：支持模型分片，2 台设备可提速 1.8 倍，4 台设备可提速 3.2 倍。
底层支持：使用 Apple 的 MLX 作为推理后端，并依赖 MLX distributed 进行分布式通信。
内置仪表板：提供本地 Web UI（默认端口 52415），用于可视化管理集群状态并直接与模型进行对话。
实测性能：基准测试表明，该系统能在 4 台 M3 Ultra Mac Studio 组成的集群上成功运行 Qwen3-235B (8-bit)、DeepSeek v3.1 671B (8-bit) 以及 Kimi K2 Thinking (4-bit) 等超大模型。
部署方式：支持通过 Nix 一键运行，或在 macOS 环境下通过源码编译启动（需依赖 Xcode Metal 工具链、uv、macmon、Node.js 及 Rust nightly 版本）。

Run frontier AI locally.