BitNet：1-bit 大语言模型推理引擎，支持 CPU 与 GPU 快速无损推理

摘要

微软开源的 bitnet.cpp 是专为 1-bit 大语言模型（如 BitNet b1.58）设计的官方推理框架，旨在 CPU 和 GPU 上实现快速、无损的推理，并大幅降低能耗。

显著的性能提升：在 ARM CPU 上实现 1.37 倍至 5.07 倍的加速；在 x86 CPU 上实现 2.37 倍至 6.17 倍的加速。
大幅降低能耗：ARM 架构下能耗降低 55.4% 至 70.0%，x86 架构下能耗降低 71.9% 至 82.2%。
单机大模型运行能力：能够在单台 CPU 上运行 100B 参数的 BitNet b1.58 模型，生成速度达每秒 5-7 个 token（媲美人类阅读速度）。
最新内核优化：通过引入并行内核实现、可配置分块（tiling）和嵌入量化支持，在不同硬件上额外实现了 1.15 倍至 2.1 倍的速度提升。
硬件支持与技术栈：目前支持 CPU 和 GPU 推理（NPU 支持在计划中）；底层基于 llama.cpp 框架，内核构建于 T-MAC 引入的查找表（Lookup Table）方法之上。
模型支持：官方发布了 2.4B 参数的 BitNet-b1.58-2B-4T 模型，同时支持 Hugging Face 上的多种 1-bit 模型（如 Llama3-8B-1.58-100B-tokens、Falcon3 系列、Falcon-E 系列等）。
工具链完善：提供了一整套 Python 脚本，涵盖环境配置、模型下载、推理运行、端到端基准测试（Benchmark）以及从 .safetensors 格式转换为 GGUF 格式的功能。
环境要求：依赖 Python >= 3.9、CMake >= 3.22 以及 Clang >= 18（Windows 用户需安装 Visual Studio 2022 及相关 C++ 工具）。

上游依赖编译错误：由于 llama.cpp 近期版本中 log.cpp 的 std::chrono 问题，可能会导致编译失败，需要手动参考特定的 commit 记录进行修复。
Windows 编译环境要求严格：在 Windows 上使用 Clang 编译时，必须在正确初始化的 VS2022 开发者命令行或 PowerShell 中运行，否则会因无法识别 clang 命令而报错。
通用性限制：本项目专为 1-bit（如三值）模型设计，官方明确指出，对于超出三值模型范畴的通用低比特 LLM 推理，建议使用 T-MAC 框架。

Official inference framework for 1-bit LLMs