在本地运行完整的DeepSeek-R1-0528模型

2025年06月10日 由 佚名 发表 287 0


Run the Full DeepSeek-R1-0528 Model Locally
 

DeepSeek-R1-0528是DeepSeek的R1推理模型的最新更新版本,需要715GB的磁盘空间,是目前可用的最大开源模型之一。然而,得益于Unsloth的先进量化技术,模型的大小可以减少到162GB,减少了80%。这使用户能够在显著降低硬件要求的情况下体验模型的全部功能,尽管性能会有轻微的折扣。


在本教程中,我们将:

  1. 设置Ollama和Open Web UI以在本地运行DeepSeek-R1-0528模型。
  2. 下载并配置模型的1.78位量化版本(IQ1_S)。
  3. 使用GPU + CPU和仅CPU设置运行模型。

 


步骤0:先决条件


要运行IQ1_S量化版本,您的系统必须满足以下要求:


GPU要求:至少1个24GB GPU(例如,NVIDIA RTX 4090或A6000)和128GB RAM。使用此设置,您可以期望生成速度约为每秒5个标记。


RAM要求:运行模型至少需要64GB RAM以在没有GPU的情况下运行模型,但性能将限制为每秒1个标记。


最佳设置:为了获得最佳性能(每秒5个以上标记),您至少需要180GB的统一内存或180GB RAM + VRAM的组合。


存储:确保您有至少200GB的可用磁盘空间用于模型及其依赖项。


步骤1:安装依赖项和Ollama


更新您的系统并安装所需的工具。Ollama是一个用于本地运行大型语言模型的轻量级服务器。使用以下命令在Ubuntu发行版上安装它:


apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

 

步骤2:下载并运行模型


使用以下命令运行DeepSeek-R1-0528模型的1.78位量化版本(IQ1_S):


ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0


Run the Full DeepSeek-R1-0528 Model Locally


步骤3:设置并运行Open Web UI


拉取带有CUDA支持的Open Web UI Docker镜像。使用GPU支持和Ollama集成运行Open Web UI容器。


此命令将:


  • 在端口8080上启动Open Web UI服务器
  • 使用--gpus all标志启用GPU加速
  • 挂载必要的数据目录(-v open-webui:/app/backend/data
docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

 

容器运行后,在浏览器中访问Open Web UI界面,地址为http://localhost:8080/.


步骤4:在Open WebUI中运行DeepSeek R1 0528


从模型菜单中选择hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0模型。


Run the Full DeepSeek-R1-0528 Model Locally


如果Ollama服务器未能正确使用GPU,您可以切换到CPU执行。虽然这会显著降低性能(大约每秒1个标记),但可以确保模型仍然可以运行。


# Kill any existing Ollama processes
pkill ollama

# Clear GPU memory
sudo fuser -v /dev/nvidia*

# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve

一旦模型运行,您可以通过Open Web UI与其交互。然而,由于缺乏GPU加速,速度将限制为每秒1个标记。


Run the Full DeepSeek-R1-0528 Model Locally


最终想法


即使是量化版本的运行也很有挑战性。您需要快速的互联网连接来下载模型,如果下载失败,您必须从头开始整个过程。我在尝试在我的GPU上运行时也遇到了很多问题,因为我不断收到与低VRAM相关的GGUF错误。尽管尝试了几种常见的GPU错误修复方法,但都没有效果,所以我最终将一切切换到CPU。虽然这确实有效,但现在模型生成响应大约需要10分钟,这远非理想。


我相信还有更好的解决方案,也许可以使用llama.cpp,但相信我,我花了一整天才让这个运行起来。
 

文章来源:https://www.kdnuggets.com/run-the-full-deepseek-r1-0528-model-locally
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消