Mistral AI 正式推出了 OCR 4 模型,这是一款能够识别 PDF、Word 文档、PPT 演示文稿等文件文字内容的光学字符识别模型。
与旧版本不同,OCR 4 不再仅仅提取纯文本。它还能识别页面内各个内容元素的位置与类型,区分标题、表格、公式以及签名。这种区块分类能力可以自动把文档切分成逻辑段落,非常适合接入检索系统,或是交由智能 AI 代理进行处理。该模型还会输出置信度评分,对识别出的字词与页面给出准确率预估。

Mistral 表示,OCR 4 支持 170 种语言,对小语种同样拥有出色识别效果。在一份包含 600 多份文档的盲测中,第三方评审人员有 72% 的比例更认可 OCR 4 的识别结果,优于同类竞品。
用户可以通过 API 接口、Mistral Studio 以及微软 Foundry 平台调用该模型。定价为每千页 4 美元,批量处理模式下单价降至 2 美元。
