在本地高效运行 LLM

摘要

本文介绍了如何通过终端环境与 llama.cpp，在手机或个人电脑上本地运行 .gguf 量化大语言模型。

想在手机上本地运行 LLM，可以按以下流程进行。

如果使用 Android，可先从 F-Droid 安装 Termux；如果使用 iOS，文中提到 iSHell。

Termux 可以在手机上提供 Linux 终端环境，用于运行命令、克隆仓库和编译模型。文中提到像 Phi-3 mini、量化版 Mistral 7B 这类较小模型可以直接在设备上运行。

该流程定位是本地离线实验，不是为了达到完整的 GPT-4 级能力。

PC 或笔记本也可以使用类似流程，最终性能主要由硬件决定：RAM、VRAM、GPU 对 CUDA 或 Metal 的支持情况。

本地推理使用量化模型文件，通常是 .gguf 格式。

可从 Hugging Face 或 llama.cpp 社区仓库下载模型。下载后，将 .gguf 文件放到 llama.cpp/models 目录。

文中使用 llama.cpp 作为主要方案，并提到可选方案包括 Ollama、LM Studio、text-generation-webui。

在 Termux / Android 上，先安装依赖：

pkg install git cmake clang make

然后克隆并构建：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build -j

基础命令示例：

./build/bin/llama-cli -m ./models/llama3.1-8b-instruct.Q4_K_M.gguf -p "hey do you have weed?"

该命令会执行一次性提示并输出回复。

交互式会话示例：

./build/bin/llama-cli -m ./models/lexi-llama-3-8B-Uncensored-4Q_K_M.gguf -t 8 -c 2048 --temp 0.7 --interactive --color

参数含义：-t 为线程数，-c 为上下文长度，--temp 控制生成随机性，--interactive 开启聊天模式，--color 开启彩色输出。

在第一条消息前，可以先设置 system prompt，并写入 models/sys.txt（或作为会话首行输入），用于约束模型风格与行为。

原文最后说明后续会继续补充更多资源。