一、软件依赖清单
1. 核心框架
- KTransformers源码:需从GitHub克隆最新版(避免使用0.2.1等旧版本,存在模型性能问题)
- Python环境:推荐Python 3.10+,需安装`setuptools`等基础库
- PyTorch与CUDA:匹配显卡驱动(如CUDA 12.1+,PyTorch 2.3.0+),需通过`nvcc`验证CUDA安装
2. 依赖库
- 高性能算子:`flash-attn`(必装,用于加速注意力计算)
- 优化工具:`xformers`(可选,用于显存优化)、`Marlin`(4bit量化支持)
- 其他依赖:通过`requirements.txt`自动安装(含HuggingFace Transformers等)
二、下载与安装步骤
1. 源码获取
```bash
git clone https://github.com/kvcache-ai/ktransformers
cd ktransformers
```
2. 环境配置
- CUDA路径修正:若报错`libcudart.so`缺失,执行以下命令:
```bash
export CUDA_HOME=$(dirname $(which nvcc))/.. # 检查nvcc路径
cp -r $CUDA_HOME/lib $CUDA_HOME/lib64 # 解决lib64路径硬编码问题
```
3. 依赖安装
```bash
pip install -r requirements.txt
pip install flash-attn --no-build-isolation # 必装模块
```
4. 编译安装
```bash
python setup.py install # 源码编译(约需30-60分钟)
```
三、关键配置项
1. 模型部署
- 模型下载:从HuggingFace获取兼容模型(如DeepSeek-R1/V3-671B),将完整权重放置在项目根目录下的`models/`文件夹。
-量化配置:编辑`configs/quantization.yaml`,选择4bit/8bit量化策略(需匹配Marlin内核)。
2. 优化策略注入
- 修改`configs/template.yaml`,自定义算子组合(例如将Linear层替换为Marlin内核):
```yaml
module_replacements:
"model.layers.*.linear": "ktransformers.kernels.marlin.Linear4bit"
``` ```
支持混合使用CPU/GPU计算节点。
3. 启动参数示例
```bash
# 启动本地聊天服务(默认加载DeepSeek-V2)
python -m ktransformers.local_chat --model DeepSeek-R1-671B --gpu-memory 24 --cpu-memory 380
# 启动兼容OpenAI的API服务
python -m ktransformers.serve --api openai --port 8000 --quantize marlin
```
四、常见问题解决
- CUDA版本冲突:若安装失败,尝试指定PyTorch版本(如`pip install torch==2.1.2`)。
- 显存不足:启用`--offload-expert-to-cpu`将专家层卸载至内存。
- 性能调优:参考调整`--chunk-size`和`--batch-size`。
通过以上步骤,可在消费级显卡(如RTX 4090)上实现千亿级模型的本地高效推理。