llama.cpp：轻量级本地大模型推理引擎

摘要

一句话总结 llama.cpp 是一个无外部依赖的 C/C++ 开源大语言模型推理框架，旨在通过广泛的硬件优化和量化技术，在本地和云端实现高效的 LLM 推理。

关键要点

项目基础：采用 MIT 开源协议，主要使用 C++ 编写，社区活跃度极高（超 9.5 万 Stars 和 1.5 万 Forks）。
核心特性：纯 C/C++ 实现，无任何外部依赖；该项目也是开发 ggml 库新功能的主要试验场。
广泛的硬件优化：对 Apple Silicon 提供原生优化（ARM NEON、Accelerate、Metal），同时支持 x86（AVX、AVX2、AVX512、AMX）和 RISC-V 架构。
GPU 与混合推理：支持自定义 CUDA 内核（NVIDIA），兼容 AMD (HIP)、Moore Threads (MUSA)、Vulkan 和 SYCL 后端，并支持 CPU+GPU 混合推理以运行超出显存容量的大模型。
模型量化：支持 1.5-bit 到 8-bit 的多种整数量化方案，大幅提升推理速度并降低内存占用。
生态与工具支持：提供 llama-server（兼容 OpenAI 的 REST API，已支持多模态）、全新 WebUI，以及用于代码补全的 VS Code 和 Vim 插件。
Hugging Face 集成：支持直接通过 CLI 运行 Hugging Face 上的模型，Hugging Face 推理端点已开箱即用支持 GGUF 格式。
丰富的模型兼容性：支持数十种主流模型系列，包括 LLaMA 1/2/3、Mistral、Qwen、Deepseek、Gemma、Mamba 等，并近期与 NVIDIA 合作添加了对原生 MXFP4 格式的支持。

LLM inference in C/C++