DeepSeek-R1-0528是DeepSeek的R1推理模型的最新更新版本,需要715GB的磁盘空间,是目前可用的最大开源模型之一。然而,得益于Unsloth的先进量化技术,模型的大小可以减少到162GB,减少了80%。这使用户能够在显著降低硬件要求的情况下体验模型的全部功能,尽管性能会有轻微的折扣。
在本教程中,我们将:
步骤0:先决条件
要运行IQ1_S量化版本,您的系统必须满足以下要求:
GPU要求:至少1个24GB GPU(例如,NVIDIA RTX 4090或A6000)和128GB RAM。使用此设置,您可以期望生成速度约为每秒5个标记。
RAM要求:运行模型至少需要64GB RAM以在没有GPU的情况下运行模型,但性能将限制为每秒1个标记。
最佳设置:为了获得最佳性能(每秒5个以上标记),您至少需要180GB的统一内存或180GB RAM + VRAM的组合。
存储:确保您有至少200GB的可用磁盘空间用于模型及其依赖项。
步骤1:安装依赖项和Ollama
更新您的系统并安装所需的工具。Ollama是一个用于本地运行大型语言模型的轻量级服务器。使用以下命令在Ubuntu发行版上安装它:
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
步骤2:下载并运行模型
使用以下命令运行DeepSeek-R1-0528模型的1.78位量化版本(IQ1_S):
ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
步骤3:设置并运行Open Web UI
拉取带有CUDA支持的Open Web UI Docker镜像。使用GPU支持和Ollama集成运行Open Web UI容器。
此命令将:
--gpus all
标志启用GPU加速-v open-webui:/app/backend/data
)docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda
容器运行后,在浏览器中访问Open Web UI界面,地址为http://localhost:8080/
.
步骤4:在Open WebUI中运行DeepSeek R1 0528
从模型菜单中选择hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
模型。
如果Ollama服务器未能正确使用GPU,您可以切换到CPU执行。虽然这会显著降低性能(大约每秒1个标记),但可以确保模型仍然可以运行。
# Kill any existing Ollama processes
pkill ollama
# Clear GPU memory
sudo fuser -v /dev/nvidia*
# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve
一旦模型运行,您可以通过Open Web UI与其交互。然而,由于缺乏GPU加速,速度将限制为每秒1个标记。
最终想法
即使是量化版本的运行也很有挑战性。您需要快速的互联网连接来下载模型,如果下载失败,您必须从头开始整个过程。我在尝试在我的GPU上运行时也遇到了很多问题,因为我不断收到与低VRAM相关的GGUF错误。尽管尝试了几种常见的GPU错误修复方法,但都没有效果,所以我最终将一切切换到CPU。虽然这确实有效,但现在模型生成响应大约需要10分钟,这远非理想。
我相信还有更好的解决方案,也许可以使用llama.cpp,但相信我,我花了一整天才让这个运行起来。