如何在本地运行量化版的DeepSeek-R1-0528? 原创

发布于 2025-6-16 08:08
浏览
0收藏

本文介绍了使用Ollama和WebUI 在本地运行量化版的 DeepSeek-R1-0528 模型。

DeepSeek-R1-0528是DeepSeek R1 推理模型的最新版本,需要715GB的磁盘空间,使其成为市面上最大的开源模型之一。然而由于来自Unsloth 的先进的量化技术,该模型的大小可以缩减至162GB,整整缩减了80%。这使得用户能够以显著降低的硬件要求体验模型的全部功能,尽管性能略有下降。

在本教程中,我们将:

  • 设置Ollama和Open Web UI,以便在本地运行DeepSeek-R1-0528 模型。
  • 下载并配置该模型的 1.78 位量化版(IQ1_S)。
  • 使用GPU + CPU和纯CPU两种配置环境运行该模型。

先决条件​

要运行IQ1_S 量化版本,你的系统必须满足以下要求:

  • GPU要求:至少1个24GB GPU(比如英伟达RTX 4090或A6000)和128GB RAM。在此配置下,预期生成速度约为每秒5个token。
  • RAM要求:运行该模型至少需要64GB RAM;可以不使用 GPU 运行该模型,但性能将限制为每秒1个token。
  • 最佳设置:为了获得最佳性能(每秒5个以上token),你至少需要180GB的统一内存或180GB的RAM + VRAM组合内存。
  • 存储:确保你至少有200GB的可用磁盘空间用于模型及其依赖项。

第1步:安装依赖项和Ollama

更新你的系统并安装所需的工具。Ollama是一款轻量级服务器,用于在本地运行大语言模型。在Ubuntu 发行版上使用以下命令安装它:

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

第2步:下载并运行模型

使用以下命令运行DeepSeek-R1-0528 模型的 1.78 位量化版本(IQ1_S):

ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

如何在本地运行量化版的DeepSeek-R1-0528?-AI.x社区

第3步:设置并运行Open Web UI

拉取支持CUDA的Open Web UI Docker镜像。运行支持GPU并集成Ollama的Open Web UI 容器。

该命令将:

  • 在8080端口启动Open Web UI服务器
  • 使用--gpus all 标志,启用GPU加速
  • 挂载必要的数据目录(-v open-webui:/app/backend/data)
docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

一旦容器运行,在浏览器中访问Open Web UI 界面:http://localhost:8080/。

第4步:在Open Web UI中运行DeepSeek R1 0528

从模型菜单中选择hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0模型。

如何在本地运行量化版的DeepSeek-R1-0528?-AI.x社区

如果Ollama服务器无法正确使用GPU,你可以切换到CPU执行。虽然这会显著降低性能(大约每秒1个token),但可以确保模型仍然能够运行。

# Kill any existing Ollama processes
pkill ollama 

# Clear GPU memory
sudo fuser -v /dev/nvidia* 

# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve

一旦模型运行,你可以通过Open Web UI与其交互。但请注意,由于缺乏GPU加速,速度将被限制为每秒1个token。

如何在本地运行量化版的DeepSeek-R1-0528?-AI.x社区

结语​

即使运行量化版本也颇具挑战性。你需要快速的网络连接来下载模型,如果下载失败,必须从头开始整个过程。我在试着在GPU上运行时也遇到了很多问题,我一直收到与VRAM 不足相关的GGUF错误。尽管尝试了几种常见的GPU错误修复方法,但都不起作用,于是我最终把一切都切换到了CPU。虽然这确实有效,但现在模型仅仅生成响应就需要大约10分钟,这远非理想状态。

我相信肯定有更好的解决方案,比如使用llama.cpp,但相信我,我花了一整天才让它运行起来。

原文标题:​Run the Full DeepSeek-R1-0528 Model Locally​,作者:Abid Ali Awan

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐