DeepSeek AI 宣布推出 DeepSeek-OCR,这是一种新的光学字符识别 (OCR) 系统,旨在通过光学 2D 映射改进大型语言模型处理长文本上下文的方式。
该技术引入了一种基于视觉的上下文压缩方法,将文本转换为紧凑的视觉标记。DeepSeek 声称,在以 96 倍到 9 倍的比例压缩文本时,它的 OCR 精度超过 10%,即使在 60 倍压缩的情况下也能实现约 20% 的准确率。
DeepSeek-OCR 由两个关键组件组成,DeepEncoder 和 DeepSeek3B-MoE-A570M,它们协同工作以平衡准确性和效率。DeepEncoder 在处理前减少视觉标记,即使在高分辨率输入下也能防止 GPU 过载。
在 OmniDocBench 基准测试中,该系统的性能优于 GOT-OCR2.0 和 MinerU2.0 等现有 OCR 模型,在保持更高效率的同时使用更少的视觉令牌。
DeepSeek 报告称,该模型每天在单个 NVIDIA A100 GPU 上处理超过 2,00,000 个页面,并使用 20 个节点每天扩展到 3300 万页。
该公司表示,这种可扩展性使 DeepSeek-OCR 适合大规模文档数字化和 AI 训练数据生成。它还支持多种分辨率和文档类型,包括图表、化学式和多语言文本。
DeepSeek 补充说,其方法通过使用视觉模式进行压缩,代表了语言模型效率的新范式。该系统的设计允许较小的语言模型有效地解码视觉表示,这表明了在内存优化和长上下文处理方面的潜在应用。
DeepSeek-OCR 的代码和模型权重都可以作为开源模型在 GitHub 上提供。该公司表示,其目标是支持更广泛的研究,将视觉和语言相结合,以实现更高效的人工智能系统。
DeepSeek 表示,该范式“为重新思考如何协同结合视觉和语言模态以提高大规模文本处理和代理系统的计算效率开辟了新的可能性。
该版本是在 DeepSeek 最近的 V3.2-Exp 模型之后发布的,据报道,该模型在训练和推理方面实现了显着的效率提升,进一步推动了法学硕士更便宜的长上下文处理。