
Deepseek发布了一款新的视觉编码器,能够根据意义重新排列图像信息,而非以严格的上下、左至右顺序处理。
传统的视觉语言模型将图像切割成小段,并按固定顺序处理,从左上角开始,向右下角移动。根据Deepseek的研究人员,这种方法与人类实际的视觉不符。我们的眼睛会根据内容灵活地遵循模式。比如描螺旋时,我们不会逐行跳跃图像。相反,我们跟随形状。
Deepseek OCR 2 试图模仿这种做法。新的 DeepEncoder V2 首先根据内容处理视觉标记,并根据上下文重新排列,然后由语言模型解释其中的内容。其背后的思路是:两个处理步骤依次工作,能够实现对二维图像内容的真正理解。
语言模型取代了传统的视觉编码器
DeepEncoder V2 的核心是用基于阿里巴巴 Qwen2 0.5B 的紧凑型语言模型架构,取代了典型的 CLIP 组件。研究人员引入了他们所谓的因果流代币。这些是可学习的查询标记,可以附加到视觉标记上,并能访问所有图像信息以及之前的查询。
论文指出,这形成了一个两阶段过程。首先,编码器根据内容重新组织视觉信息。然后下游的LLM解码器对已排序的序列进行推理。只有重新排列的因果流符号传递给解码器,而非原始的视觉符号。
代币越少,效果越好
Deepseek OCR 2 根据图像不同,使用256到1120个视觉标记。类似模型通常需要超过6000或7000个令牌。在涵盖九个类别、共1355页的文档处理基准OmniDocBench v1.5中,该模型整体得分为91.09%,研究人员表示。
这比其前身Deepseek OCR提高了3.73个百分点。在识别正确阅读顺序方面,这些提升尤为明显。在文档解析方面,Deepseek OCR 2 在类似的令牌预算下也优于 Gemini 3 Pro。
在实际应用中,重复率也有所提升。这衡量模型陷入冗余文本循环的频率。作为Deepseek语言模型的OCR后端,这一比例从6.25%降至4.17%。而批量处理PDF为训练数据的比例则从3.69%降至2.88%。
不过,这个模型确实存在一些薄弱环节。例如,它在报纸上的表现比前作更差。研究人员指出两个因素:较低的代币限制可能会给大量文字的报纸页面带来问题,且训练数据仅包含25万页报纸,这在该类别中材料不足。
迈向统一多模态处理的一步
研究人员认为DeepEncoder V2是向标准化多模态处理迈进的进展。未来,编码器架构可能会发展为使用相同的基本框架处理文本、语音和图像,仅根据模态适配查询标记。论文指出,这种方法最终有望实现对二维内容的真正理解。
代码和模型权重可在GitHub和Hugging Face公开获取。
Deepseek 刚刚在去年十月发布了第一代 Deepseek OCR。该系统将文本文档处理为图像,并将内存需求降低十倍。因此,语言模型能够显著保留更多的上下文,这对长聊天历史或大量文档非常有用。据Deepsee克称,该系统每天可处理多达3300万页,尤其适合生成大型训练数据集。
