DeepSeek的更新版R1推理AI模型可能吸引了本周AI社区的大部分关注。然而,这家中国AI实验室还发布了其新R1的一个更小的“精简”版本,即DeepSeek-R1-0528-Qwen3-8B。DeepSeek声称该版本在某些基准测试中优于同等大小的模型。
这个更小的更新版R1是基于Qwen3-8B模型阿里巴巴在五月推出的基础上开发的,其表现优于谷歌的Gemini 2.5 Flash在AIME 2025上,这是一组具有挑战性的数学问题。
DeepSeek-R1-0528-Qwen3-8B几乎与微软最近发布的Phi 4推理增强版模型在另一个数学技能测试HMMT上不相上下。
所谓的精简模型如DeepSeek-R1-0528-Qwen3-8B通常不如其全尺寸版本强大。但好处是,它们对计算资源的需求要小得多。根据云平台NodeShift,Qwen3-8B需要一个具有40GB-80GB RAM的GPU来运行(例如,Nvidia H100),而全尺寸的新R1需要大约十二个80GB的GPU。
DeepSeek通过使用更新版R1生成的文本来微调Qwen3-8B,从而训练了DeepSeek-R1-0528-Qwen3-8B。在AI开发平台Hugging Face的专用网页上,DeepSeek将DeepSeek-R1-0528-Qwen3-8B描述为“用于推理模型的学术研究和专注于小规模模型的工业开发。”
DeepSeek-R1-0528-Qwen3-8B在宽松的MIT许可证下可用,这意味着可以无限制地用于商业用途。包括LM Studio在内的多个主机已经通过API提供该模型。