在本地运行完整的DeepSeek-R1-0528模型

2025年06月10日由佚名发表 2889 0

Run the Full DeepSeek-R1-0528 Model Locally

DeepSeek-R1-0528是DeepSeek的R1推理模型的最新更新版本，需要715GB的磁盘空间，是目前可用的最大开源模型之一。然而，得益于Unsloth的先进量化技术，模型的大小可以减少到162GB，减少了80%。这使用户能够在显著降低硬件要求的情况下体验模型的全部功能，尽管性能会有轻微的折扣。

在本教程中，我们将：

设置Ollama和Open Web UI以在本地运行DeepSeek-R1-0528模型。
下载并配置模型的1.78位量化版本（IQ1_S）。
使用GPU + CPU和仅CPU设置运行模型。

步骤0：先决条件

要运行IQ1_S量化版本，您的系统必须满足以下要求：

GPU要求：至少1个24GB GPU（例如，NVIDIA RTX 4090或A6000）和128GB RAM。使用此设置，您可以期望生成速度约为每秒5个标记。

RAM要求：运行模型至少需要64GB RAM以在没有GPU的情况下运行模型，但性能将限制为每秒1个标记。

最佳设置：为了获得最佳性能（每秒5个以上标记），您至少需要180GB的统一内存或180GB RAM + VRAM的组合。

存储：确保您有至少200GB的可用磁盘空间用于模型及其依赖项。

步骤1：安装依赖项和Ollama

更新您的系统并安装所需的工具。Ollama是一个用于本地运行大型语言模型的轻量级服务器。使用以下命令在Ubuntu发行版上安装它：

apt-get update

apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh

步骤2：下载并运行模型

使用以下命令运行DeepSeek-R1-0528模型的1.78位量化版本（IQ1_S）：

ollama serve &

ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

步骤3：设置并运行Open Web UI

拉取带有CUDA支持的Open Web UI Docker镜像。使用GPU支持和Ollama集成运行Open Web UI容器。

此命令将：

在端口8080上启动Open Web UI服务器
使用--gpus all标志启用GPU加速
挂载必要的数据目录（-v open-webui:/app/backend/data）

docker pull ghcr.io/open-webui/open-webui:cuda

docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

容器运行后，在浏览器中访问Open Web UI界面，地址为http://localhost:8080/.

步骤4：在Open WebUI中运行DeepSeek R1 0528

从模型菜单中选择hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0模型。

如果Ollama服务器未能正确使用GPU，您可以切换到CPU执行。虽然这会显著降低性能（大约每秒1个标记），但可以确保模型仍然可以运行。

# Kill any existing Ollama processes

pkill ollama 



# Clear GPU memory

sudo fuser -v /dev/nvidia* 



# Restart Ollama service

CUDA_VISIBLE_DEVICES="" ollama serve

一旦模型运行，您可以通过Open Web UI与其交互。然而，由于缺乏GPU加速，速度将限制为每秒1个标记。

最终想法

即使是量化版本的运行也很有挑战性。您需要快速的互联网连接来下载模型，如果下载失败，您必须从头开始整个过程。我在尝试在我的GPU上运行时也遇到了很多问题，因为我不断收到与低VRAM相关的GGUF错误。尽管尝试了几种常见的GPU错误修复方法，但都没有效果，所以我最终将一切切换到CPU。虽然这确实有效，但现在模型生成响应大约需要10分钟，这远非理想。

我相信还有更好的解决方案，也许可以使用llama.cpp，但相信我，我花了一整天才让这个运行起来。

文章来源：https://www.kdnuggets.com/run-the-full-deepseek-r1-0528-model-locally

标签：

机器学习

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果推出优雅的玻璃般用户设计体验和强大的新操作系统功能

下一篇 OpenAI更新ChatGPT的语音模式，使其更加自然

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术