系统要求
- 系统镜像:
docker pull nvidia/cuda:12.4.1-cudnn-devel-rockylinux8
- GPU:
A100-SXM4-40GB
(单机 8 卡)
下载合并模型权重
从 hugging face 下载 unsloth 动态量化后的模型。经测试,8 卡 A100 40G 显存最高支持加载 Q2_K_XL 量化版本,下载前请先确保硬盘可用空间 >=500G
(所有权重大小约 212G
,后续将多个权重文件合并后,硬盘空间占用会翻倍),合并权重所依赖的 llama-gguf-split
工具请参考 llama.cpp 编译教程,
mkdir DeepSeek-R1-UD-Q2_K_XL
cd DeepSeek-R1-UD-Q2_K_XL
# 从 hugging face 直接下载
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00001-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00002-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00003-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00004-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00005-of-00005.gguf
# 合并权重
llama-gguf-split \
--merge \
DeepSeek-R1-UD-Q2_K_XL-00001-of-00005.gguf \
DeepSeek-R1-UD-Q2_K_XL.gguf
ls -lha DeepSeek-R1-UD-Q2_K_XL.gguf
生成 Ollama 模型
注意,生成的 Ollama 模型大小和合并后的 gguf
权重大小一样,如果硬盘可用空间不足,可以先把合并前的多个权重 DeepSeek-R1-UD-Q2_K_XL-*-of-00005.gguf
先删除。