Deepseek OCR 2 将视觉标记减少了 80%,并且在文档解析方面优于 Gemini 3 Pro

2026年02月02日 由 alex 发表 3510 0

deepseek_logo_wahle_Matrix


Deepseek发布了一款新的视觉编码器,能够根据意义重新排列图像信息,而非以严格的上下、左至右顺序处理。


传统的视觉语言模型将图像切割成小段,并按固定顺序处理,从左上角开始,向右下角移动。根据Deepseek的研究人员,这种方法与人类实际的视觉不符。我们的眼睛会根据内容灵活地遵循模式。比如描螺旋时,我们不会逐行跳跃图像。相反,我们跟随形状。


Deepseek OCR 2 试图模仿这种做法。新的 DeepEncoder V2 首先根据内容处理视觉标记,并根据上下文重新排列,然后由语言模型解释其中的内容。其背后的思路是:两个处理步骤依次工作,能够实现对二维图像内容的真正理解。


语言模型取代了传统的视觉编码器

DeepEncoder V2 的核心是用基于阿里巴巴 Qwen2 0.5B 的紧凑型语言模型架构,取代了典型的 CLIP 组件。研究人员引入了他们所谓的因果流代币。这些是可学习的查询标记,可以附加到视觉标记上,并能访问所有图像信息以及之前的查询。


论文指出,这形成了一个两阶段过程。首先,编码器根据内容重新组织视觉信息。然后下游的LLM解码器对已排序的序列进行推理。只有重新排列的因果流符号传递给解码器,而非原始的视觉符号。


代币越少,效果越好

Deepseek OCR 2 根据图像不同,使用256到1120个视觉标记。类似模型通常需要超过6000或7000个令牌。在涵盖九个类别、共1355页的文档处理基准OmniDocBench v1.5中,该模型整体得分为91.09%,研究人员表示。


这比其前身Deepseek OCR提高了3.73个百分点。在识别正确阅读顺序方面,这些提升尤为明显。在文档解析方面,Deepseek OCR 2 在类似的令牌预算下也优于 Gemini 3 Pro。


在实际应用中,重复率也有所提升。这衡量模型陷入冗余文本循环的频率。作为Deepseek语言模型的OCR后端,这一比例从6.25%降至4.17%。而批量处理PDF为训练数据的比例则从3.69%降至2.88%。


不过,这个模型确实存在一些薄弱环节。例如,它在报纸上的表现比前作更差。研究人员指出两个因素:较低的代币限制可能会给大量文字的报纸页面带来问题,且训练数据仅包含25万页报纸,这在该类别中材料不足。


迈向统一多模态处理的一步

研究人员认为DeepEncoder V2是向标准化多模态处理迈进的进展。未来,编码器架构可能会发展为使用相同的基本框架处理文本、语音和图像,仅根据模态适配查询标记。论文指出,这种方法最终有望实现对二维内容的真正理解。


代码和模型权重可在GitHub和Hugging Face公开获取。


Deepseek 刚刚在去年十月发布了第一代 Deepseek OCR。该系统将文本文档处理为图像,并将内存需求降低十倍。因此,语言模型能够显著保留更多的上下文,这对长聊天历史或大量文档非常有用。据Deepsee克称,该系统每天可处理多达3300万页,尤其适合生成大型训练数据集。

文章来源:https://the-decoder.com/deepseek-ocr-2-cuts-visual-tokens-by-80-and-outperforms-gemini-3-pro-on-document-parsing/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消