Dropbox推出机器学习驱动的AutoOCR，可以从PDF和图像中索引文本

2018年10月10日由浅浅发表 165382 0

按文件名搜索PDF或图像是一项艰巨的工作，特别是如果这些文件名不具有描述性。但如果你是Dropbox用户，这就会变得更容易。

Dropbox今天宣布推出Auto OCR，这是一款机器学习驱动的光学字符识别（OCR）引擎，可自动从图片和PDF中提取和索引文本，包括已经存储在Dropbox超过5亿用户帐户中的240亿数据。Dropbox表示，这是其机器学习团队所进行的计算密集程度最高的项目。

团队在一篇博客文章中写道，“这项新功能利用我们的机器智能功能，使搜索变得更加智能。”

Auto OCR可以或多或少地按照你的预期运行。如果你要查找的文档包含唯一的标题，名称，地址或字符串，就在Dropbox的网络，桌面或移动设备的搜索栏中将其删除，这会将相关文件放到结果的顶部。在发布时，大多数新的和以前上传的JPEG，GIF，PNG，TIFF和PDF将被完整索引。

“想要寻找几年前队友扫描的合同？只需搜索供应商，”Dropbox写道。“试图追踪建筑师为你的改造整理的蓝图？输入他们的名字。不记得你保存那个航班的行程截图了吗？输入进入目的地机场。”

Auto OCR目前仅限英语，且必须注册三个高级计划之一：Dropbox Professional（每月每位用户12.5美元），Business Advance（每月每位用户20美元）或Enterprise。从本周开始，Dropbox Business Advanced和Enterprise管理员可以通过管理控制台打开自动OCR 。

Auto OCR是Dropbox智能计划（DBXi）的一部分，Dropbox希望将AI投入到其所有产品和服务中。

OCR在云存储领域并不算新鲜事；微软的OneDrive可以搜索文档内的文本，Google Drive也可以。Dropbox机器学习工程师Leonard Fink表示，尽管如此，设计一个可以扩展到数亿个文档和图像的系统是非常复杂的。

“我们想要处理的文件类型是那些目前没有可索引文本内容的文件，”Fink在博客文章中写道，“这包括没有文本数据的图像格式和PDF文件。但是，并非所有图像或PDF都包含文本；事实上，9％的JPEG只是没有任何文字的照片或插图。”

PDF提出了特殊的挑战。根据Fink的说法，Dropbox的平均文档有8.8页，如果文件没有按优先顺序排列，那么它的处理开销将是JPEG的10倍。

Dropbox团队的解决方案是将它们分成三部分：具有已经嵌入和可索引的文本的PDF，具有图像形式的文本的PDF，以及没有实质文本的PDF，并且将索引页面的数量限制在10（Fink指出，Dropbox中有一半的PDF只有一页，而90％有10页或更少）。

为了从PDF中提取单词，自动OCR使用基于PDF开发的服务器端组件将整个页面渲染为栅格数据，这是谷歌开源Chromium项目中的渲染器（以及Chrome浏览器的基础）。它与Dropbox用于生成PDF的预览缩略图以及检测PDF中的正文文本的系统相同。

从公共资源，用户和Dropbox员工收集的数千张图像上训练的TensorFlow模型确定哪些文件是文本提取的最佳候选者，第二种AI模型（在开源ImageNet数据集上训练的改进的Densenet-121深度卷积网络）检测图像中文档的角落。同时，另一个模型从大致对应于单词的文件中提取“标记”，它在列表中排列并添加到Dropbox的搜索索引中。

一个微型服务工作者lambda，使用Cape，Dropbox的内部大型异步事件流处理框架创建，每当文件上传或编辑时启动自动OCR管道。为了提高系统的稳健性，Dropbox团队实施了一个“重试”逻辑，可以在发生错误时连续尝试解析PDF或图像。（根据Fink的说法，它导致PDF元数据提取失败率降低了88％）。

“使文档图像可搜索是深入理解文档结构和内容的第一步，”Fink写道，“借助这些信息，Dropbox可以帮助用户更好地整理文件，以迈向更开明的工作方式。”

自DBXi和Dropbox首次公开募股开始以来的几个月，AI产品部署的数量有所增加。

“我们看到使用机器智能改善工作体验的巨大潜力，”Dropbox产品组经理Timo Mertens和Vinod Valloppillil在博客文章中写道，“从技术角度来看，这些都是需要解决的重要问题，而成功不仅意味着直观的用户界面，还意味着快速响应时间，业界领先的预测以及维护数据隐私的最高标准。”

标签：

视觉识别机器学习对象检测自然语言处理NLP 计算机视觉人工智能应用

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇用面部识别为鱼类建立医疗记录，追踪鱼类健康状况

下一篇 Clarifai的AI可检测图像和视频中的不合规内容

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术