DeepSeek 的新 OCR 模型每天可以在单个 GPU 上处理超过 20 万页

2025年10月22日由 alex 发表 2242 0

DeepSeek AI 宣布推出 DeepSeek-OCR，这是一种新的光学字符识别（OCR）系统，旨在通过光学 2D 映射改进大型语言模型处理长文本上下文的方式。

该技术引入了一种基于视觉的上下文压缩方法，将文本转换为紧凑的视觉标记。DeepSeek 声称，在以 96 倍到 9 倍的比例压缩文本时，它的 OCR 精度超过 10%，即使在 60 倍压缩的情况下也能实现约 20% 的准确率。

DeepSeek-OCR 由两个关键组件组成，DeepEncoder 和 DeepSeek3B-MoE-A570M，它们协同工作以平衡准确性和效率。DeepEncoder 在处理前减少视觉标记，即使在高分辨率输入下也能防止 GPU 过载。

在 OmniDocBench 基准测试中，该系统的性能优于 GOT-OCR2.0 和 MinerU2.0 等现有 OCR 模型，在保持更高效率的同时使用更少的视觉令牌。

DeepSeek 报告称，该模型每天在单个 NVIDIA A100 GPU 上处理超过 2,00,000 个页面，并使用 20 个节点每天扩展到 3300 万页。

该公司表示，这种可扩展性使 DeepSeek-OCR 适合大规模文档数字化和 AI 训练数据生成。它还支持多种分辨率和文档类型，包括图表、化学式和多语言文本。

DeepSeek 补充说，其方法通过使用视觉模式进行压缩，代表了语言模型效率的新范式。该系统的设计允许较小的语言模型有效地解码视觉表示，这表明了在内存优化和长上下文处理方面的潜在应用。

DeepSeek-OCR 的代码和模型权重都可以作为开源模型在 GitHub 上提供。该公司表示，其目标是支持更广泛的研究，将视觉和语言相结合，以实现更高效的人工智能系统。

DeepSeek 表示，该范式“为重新思考如何协同结合视觉和语言模态以提高大规模文本处理和代理系统的计算效率开辟了新的可能性。

该版本是在 DeepSeek 最近的 V3.2-Exp 模型之后发布的，据报道，该模型在训练和推理方面实现了显着的效率提升，进一步推动了法学硕士更便宜的长上下文处理。

文章来源：https://analyticsindiamag.com/ai-news-updates/deepseeks-new-ocr-model-can-process-over-2-lakh-pages-daily-on-a-single-gpu/

标签：

DeepSeek AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 WhatsApp和Messenger新增警告，帮助老年人避免网络诈骗

下一篇 Yelp 的人工智能现在可以通过电话接受预订

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市