系统要求

系统镜像：docker pull nvidia/cuda:12.4.1-cudnn-devel-rockylinux8
GPU：A100-SXM4-40GB（单机 8 卡）

下载合并模型权重

从 hugging face 下载 unsloth 动态量化后的模型。经测试，8 卡 A100 40G 显存最高支持加载 Q2_K_XL 量化版本，下载前请先确保硬盘可用空间 >=500G（所有权重大小约 212G，后续将多个权重文件合并后，硬盘空间占用会翻倍），合并权重所依赖的 llama-gguf-split 工具请参考 llama.cpp 编译教程，

mkdir DeepSeek-R1-UD-Q2_K_XL
cd DeepSeek-R1-UD-Q2_K_XL
# 从 hugging face 直接下载
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00001-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00002-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00003-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00004-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00005-of-00005.gguf

# 合并权重
llama-gguf-split \
    --merge \
    DeepSeek-R1-UD-Q2_K_XL-00001-of-00005.gguf \
    DeepSeek-R1-UD-Q2_K_XL.gguf
ls -lha DeepSeek-R1-UD-Q2_K_XL.gguf

生成 Ollama 模型

注意，生成的 Ollama 模型大小和合并后的 gguf 权重大小一样，如果硬盘可用空间不足，可以先把合并前的多个权重 DeepSeek-R1-UD-Q2_K_XL-*-of-00005.gguf 先删除。

A100 部署 671B 全参数 DeepSeek-R1

系统要求

下载合并模型权重

生成 Ollama 模型

参考文章