ktransformers：异构LLM推理与微调优化工具

摘要

1) 一句话总结 KTransformers 是一个基于 CPU-GPU 异构计算的开源框架，专注于为大语言模型（特别是超大 MoE 模型）提供高效的推理与微调优化方案。

2) 关键要点

核心架构：项目包含 kt-kernel（高性能推理算子）和 kt-sft（微调框架）两个核心模块，主要使用 Python 开发，基于 Apache 2.0 协议开源。
异构计算与内存优化：支持 CPU-GPU 专家调度（热专家在 GPU，冷专家在 CPU）及 NUMA 感知的内存管理，并利用 Intel AMX/AVX512/AVX2 指令集加速 CPU 端的 INT4/INT8 量化推理。
极致的微调资源效率：kt-sft 模块与 LLaMA-Factory 深度集成，支持 LoRA 和 RL-DPO 微调；仅需 70GB 显存和 1.3TB 内存即可微调 671B 参数的 DeepSeek-V3 模型。
高性能推理指标：支持原生 BF16/FP8 精度、多并发及 3 层（GPU-CPU-Disk）前缀缓存复用；在 8×L20 GPU + Xeon CPU 环境下，DeepSeek-R1 (FP8) 的总吞吐量可达 227.85 tokens/s。
长上下文与低显存支持：在单卡 24GB 显存下，支持 DeepSeek-V3/R1 运行高达 139K 的长上下文；曾通过优化将 DeepseekV2 的显存需求从 21GB 降至 11GB。
广泛的硬件兼容性：除 NVIDIA GPU 外，还支持 Intel Arc GPU、AMD ROCm、昇腾（Ascend）NPU 以及 Windows 原生环境。
丰富的模型与生态支持：已集成至 SGLang 用于生产级服务；实现对 MiniMax-M2.5、GLM-5、Kimi-K2.5 等模型的首日（Day0）支持，并兼容 Qwen3、LLaMA 4（实验性）等主流模型。

A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations