摘要
本文介绍了如何通过终端环境与 llama.cpp,在手机或个人电脑上本地运行 .gguf 量化大语言模型。
- Android 设备建议使用 Termux,iOS 设备文中提到 iSHell,以获得终端运行环境。
- 运行效果受硬件条件影响明显,主要包括 RAM、VRAM 以及 GPU 对 CUDA 或 Metal 的支持。
- 模型文件采用
.gguf量化格式,可从 Hugging Face 或 llama.cpp 社区获取。 - 文中以
llama.cpp作为主流程,也提到 Ollama、LM Studio、text-generation-webui 等替代方案。 - 在 Termux 上需要先安装
git cmake clang make,再克隆并编译llama.cpp。 - 使用
llama-cli可进行单次问答,也可通过交互参数进入离线聊天模式。 - 可通过系统提示词文件(如
models/sys.txt)为会话设置角色或风格。 - 文中明确该方式更适合实验与离线体验,不以替代 GPT-4 级能力为目标。
正文
想在手机上本地运行 LLM,可以按以下流程进行。
1. 设备
如果使用 Android,可先从 F-Droid 安装 Termux;如果使用 iOS,文中提到 iSHell。
Termux 可以在手机上提供 Linux 终端环境,用于运行命令、克隆仓库和编译模型。文中提到像 Phi-3 mini、量化版 Mistral 7B 这类较小模型可以直接在设备上运行。
该流程定位是本地离线实验,不是为了达到完整的 GPT-4 级能力。
PC 或笔记本也可以使用类似流程,最终性能主要由硬件决定:RAM、VRAM、GPU 对 CUDA 或 Metal 的支持情况。
2. 模型
本地推理使用量化模型文件,通常是 .gguf 格式。
可从 Hugging Face 或 llama.cpp 社区仓库下载模型。下载后,将 .gguf 文件放到 llama.cpp/models 目录。
3. 安装
文中使用 llama.cpp 作为主要方案,并提到可选方案包括 Ollama、LM Studio、text-generation-webui。
在 Termux / Android 上,先安装依赖:
pkg install git cmake clang make然后克隆并构建:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build -j4. 运行模型
基础命令示例:
./build/bin/llama-cli -m ./models/llama3.1-8b-instruct.Q4_K_M.gguf -p "hey do you have weed?"该命令会执行一次性提示并输出回复。
交互式会话示例:
./build/bin/llama-cli -m ./models/lexi-llama-3-8B-Uncensored-4Q_K_M.gguf -t 8 -c 2048 --temp 0.7 --interactive --color参数含义:-t 为线程数,-c 为上下文长度,--temp 控制生成随机性,--interactive 开启聊天模式,--color 开启彩色输出。
5. 个性化设置
在第一条消息前,可以先设置 system prompt,并写入 models/sys.txt(或作为会话首行输入),用于约束模型风格与行为。
原文最后说明后续会继续补充更多资源。