亚马逊的研究人员利用人工智能来提高文字识别能力

2019年12月29日由 TGS 发表 120393 0

光学字符识别(OCR)，即将手写或印刷文本的图像转换成机器可读的文本，这是一门可以追溯到70年代初的科学，但长期以来，算法一直难以识别出与水平面不平行的字符，为此，亚马逊的研究人员开发了一种“文本框”——是自然图像中“弯曲”文字的探测器。

在一篇描述他们工作的论文中，合著者声称，他们的方法在一个流行OCR基准上取得了最先进的结果。论文中写道，场景文本通常分为两个连续的任务：文本检测和文本识别。第一种方法涉及使用上下文线索对字符、单词和行，进行本地化，而第二种方法则负责转录它们的内容。说起来容易做起来难，弯曲的光学文本不仅本身具有易变形的特点，还会受到视角变化和任意字体的影响。

团队的解决方案是一个文本参考框架的“tube”表示，它能捕获大部分的可变性，从中获得利用目标文本通常是相似大小字符串联这一事实。它是一个数学函数，可以训练机器学习场景文本检测器，与传统方法不同的是，它并不使用容易重叠的矩形和四边形来捕获文本信息。研究人员在CTW-1500上评估了“文本框”的性能，CTW-1500是一个数据集，由1500幅从自然场景和图像库收集的图像和10000多个文本实例组成，每个图像至少有一个弯曲的实例。

他们报告说，“文本框”在CTW-1500上获得了行业领先的结果，准确率为83.65%，而最近的相似方法准确率为75.6%。论文的合著者写道：“对一个实例的中轴和平均半径进行建模……可以获取整个实例的信息，在由单个单词组成的数据集上，比如Total-Text，我们的模型能够实现最先进的性能。在具有行级注释的数据集上，比如CTW-1500，我们的模型能够更好地捕获文本信息。”

如果未来该项研究投入实用，对严重依赖OCR开展业务的企业来说，无疑是个福音。此外，它也有可能成为进一步推进无纸化办公的急先锋。

标签：

机器学习文本识别

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇机器学习与软件开发生命周期

下一篇利用机器学习了解基因调控

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术