Deepseek OCR 2 将视觉标记减少了 80%，并且在文档解析方面优于 Gemini 3 Pro

2026年02月02日由 alex 发表 3510 0

deepseek_logo_wahle_Matrix

Deepseek发布了一款新的视觉编码器，能够根据意义重新排列图像信息，而非以严格的上下、左至右顺序处理。

传统的视觉语言模型将图像切割成小段，并按固定顺序处理，从左上角开始，向右下角移动。根据Deepseek的研究人员，这种方法与人类实际的视觉不符。我们的眼睛会根据内容灵活地遵循模式。比如描螺旋时，我们不会逐行跳跃图像。相反，我们跟随形状。

Deepseek OCR 2 试图模仿这种做法。新的 DeepEncoder V2 首先根据内容处理视觉标记，并根据上下文重新排列，然后由语言模型解释其中的内容。其背后的思路是：两个处理步骤依次工作，能够实现对二维图像内容的真正理解。

语言模型取代了传统的视觉编码器

DeepEncoder V2 的核心是用基于阿里巴巴 Qwen2 0.5B 的紧凑型语言模型架构，取代了典型的 CLIP 组件。研究人员引入了他们所谓的因果流代币。这些是可学习的查询标记，可以附加到视觉标记上，并能访问所有图像信息以及之前的查询。

论文指出，这形成了一个两阶段过程。首先，编码器根据内容重新组织视觉信息。然后下游的LLM解码器对已排序的序列进行推理。只有重新排列的因果流符号传递给解码器，而非原始的视觉符号。

代币越少，效果越好

Deepseek OCR 2 根据图像不同，使用256到1120个视觉标记。类似模型通常需要超过6000或7000个令牌。在涵盖九个类别、共1355页的文档处理基准OmniDocBench v1.5中，该模型整体得分为91.09%，研究人员表示。

这比其前身Deepseek OCR提高了3.73个百分点。在识别正确阅读顺序方面，这些提升尤为明显。在文档解析方面，Deepseek OCR 2 在类似的令牌预算下也优于 Gemini 3 Pro。

在实际应用中，重复率也有所提升。这衡量模型陷入冗余文本循环的频率。作为Deepseek语言模型的OCR后端，这一比例从6.25%降至4.17%。而批量处理PDF为训练数据的比例则从3.69%降至2.88%。

不过，这个模型确实存在一些薄弱环节。例如，它在报纸上的表现比前作更差。研究人员指出两个因素：较低的代币限制可能会给大量文字的报纸页面带来问题，且训练数据仅包含25万页报纸，这在该类别中材料不足。

迈向统一多模态处理的一步

研究人员认为DeepEncoder V2是向标准化多模态处理迈进的进展。未来，编码器架构可能会发展为使用相同的基本框架处理文本、语音和图像，仅根据模态适配查询标记。论文指出，这种方法最终有望实现对二维内容的真正理解。

代码和模型权重可在GitHub和Hugging Face公开获取。

Deepseek 刚刚在去年十月发布了第一代 Deepseek OCR。该系统将文本文档处理为图像，并将内存需求降低十倍。因此，语言模型能够显著保留更多的上下文，这对长聊天历史或大量文档非常有用。据Deepsee克称，该系统每天可处理多达3300万页，尤其适合生成大型训练数据集。

文章来源：https://the-decoder.com/deepseek-ocr-2-cuts-visual-tokens-by-80-and-outperforms-gemini-3-pro-on-document-parsing/

标签：

Deepseek Gemini

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 RobCo获1亿美元融资以扩展自主工业机器人平台

下一篇 SpaceX希望将100万个太阳能数据中心送入轨道

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市