A100 部署 671B 全参数 DeepSeek-R1

系统要求

  • 系统镜像:docker pull nvidia/cuda:12.4.1-cudnn-devel-rockylinux8
  • GPU:A100-SXM4-40GB(单机 8 卡)

下载合并模型权重

hugging face 下载 unsloth 动态量化后的模型。经测试,8 卡 A100 40G 显存最高支持加载 Q2_K_XL 量化版本,下载前请先确保硬盘可用空间 >=500G(所有权重大小约 212G,后续将多个权重文件合并后,硬盘空间占用会翻倍),合并权重所依赖的 llama-gguf-split 工具请参考 llama.cpp 编译教程,

mkdir DeepSeek-R1-UD-Q2_K_XL
cd DeepSeek-R1-UD-Q2_K_XL
# 从 hugging face 直接下载
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00001-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00002-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00003-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00004-of-00005.gguf
wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00005-of-00005.gguf

# 合并权重
llama-gguf-split \
    --merge \
    DeepSeek-R1-UD-Q2_K_XL-00001-of-00005.gguf \
    DeepSeek-R1-UD-Q2_K_XL.gguf
ls -lha DeepSeek-R1-UD-Q2_K_XL.gguf

生成 Ollama 模型

注意,生成的 Ollama 模型大小和合并后的 gguf 权重大小一样,如果硬盘可用空间不足,可以先把合并前的多个权重 DeepSeek-R1-UD-Q2_K_XL-*-of-00005.gguf 先删除。

参考文章

  1. https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html
  2. https://unsloth.ai/blog/deepseekr1-dynamic
  3. https://huggingface.co/docs/hub/gguf
Comment