DeepSeek的新R1 AI模型精简版可在单个GPU上运行

登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR 视频AI

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

行业人工智能

所以，能动手就别吵吵了

行业人工智能

为什么数据污染对LLM来说是一个大问题

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

常用工具

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

2025年05月30日由佚名发表 605 0

DeepSeek的更新版R1推理AI模型可能吸引了本周AI社区的大部分关注。然而，这家中国AI实验室还发布了其新R1的一个更小的“精简”版本，即DeepSeek-R1-0528-Qwen3-8B。DeepSeek声称该版本在某些基准测试中优于同等大小的模型。

这个更小的更新版R1是基于Qwen3-8B模型阿里巴巴在五月推出的基础上开发的，其表现优于谷歌的Gemini 2.5 Flash在AIME 2025上，这是一组具有挑战性的数学问题。

DeepSeek-R1-0528-Qwen3-8B几乎与微软最近发布的Phi 4推理增强版模型在另一个数学技能测试HMMT上不相上下。

所谓的精简模型如DeepSeek-R1-0528-Qwen3-8B通常不如其全尺寸版本强大。但好处是，它们对计算资源的需求要小得多。根据云平台NodeShift，Qwen3-8B需要一个具有40GB-80GB RAM的GPU来运行（例如，Nvidia H100），而全尺寸的新R1需要大约十二个80GB的GPU。

DeepSeek通过使用更新版R1生成的文本来微调Qwen3-8B，从而训练了DeepSeek-R1-0528-Qwen3-8B。在AI开发平台Hugging Face的专用网页上，DeepSeek将DeepSeek-R1-0528-Qwen3-8B描述为“用于推理模型的学术研究和专注于小规模模型的工业开发。”

DeepSeek-R1-0528-Qwen3-8B在宽松的MIT许可证下可用，这意味着可以无限制地用于商业用途。包括LM Studio在内的多个主机已经通过API提供该模型。

文章来源：https://techcrunch.com/2025/05/29/deepseeks-distilled-new-r1-ai-model-can-run-on-a-single-gpu/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta AI 月活跃用户突破10亿

下一篇 Google Gemini 现可总结并回答您关于 Google Drive 视频的问题

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来