研究人员在DeepSeek周一发布了一种名为V3.2-exp的新实验模型,旨在大幅降低长上下文操作中的推理成本。DeepSeek通过在Hugging Face上的一篇帖子宣布了该模型,同时还发布了一篇相关的学术论文链接在GitHub上。
新模型的核心特征是DeepSeek稀疏注意力,这是一种复杂的系统,详细描述在下方的图表中。基本上,该系统使用一个称为“闪电索引器”的模块来优先处理上下文窗口中的特定摘录。之后,一个单独的系统称为“细粒度令牌选择系统”从这些摘录中选择特定的令牌加载到模块的有限注意力窗口中。结合起来,它们允许稀疏注意力模型在长时间的上下文中以相对较小的服务器负载运行。
对于长上下文操作,该系统的好处显著。DeepSeek的初步测试发现,在长上下文情况下,一个简单的API调用的价格可以减少多达一半。需要进一步测试以建立更稳健的评估,但由于该模型是开放权重并在Hugging Face上免费提供,不久之后第三方测试就可以评估论文中提出的主张。
DeepSeek的新模型是最近一系列突破中的一个,解决了推理成本问题——本质上是运行预训练AI模型的服务器成本,与训练成本不同。在DeepSeek的案例中,研究人员正在寻找使基本变压器架构更高效运行的方法,并发现可以进行显著的改进。
总部位于中国的DeepSeek在AI热潮中一直是一个不寻常的角色,特别是对于那些将AI研究视为美中之间的国家竞争的人来说。该公司在年初引起了轰动其R1模型主要通过强化学习训练,成本远低于其美国竞争对手。但该模型并未如一些人预测的那样在AI训练中引发全面革命,几个月来该公司已从聚光灯下淡出。
新的“稀疏注意力”方法不太可能像R1那样引起轰动——但它仍可能教会美国供应商一些急需的技巧,以帮助保持推理成本低。