科大讯飞专访：想在阅读理解系统领域成为第一，这才是第一步！

2017年08月03日由 nanan 发表 250326 0

在由斯坦福大学发起的SQuAD（Stanford Question Answering）数据集测试榜单中，科大讯飞与哈工大联合实验室提交的系统模型夺得第一。在ACL2017大会现场，对科大讯飞研究院副院长王士进进行了访问，王士进不仅介绍了科大讯飞取得良好成绩的关键因素，而且还对机器领域相关方面的研发方向做了解释。他认为，机器阅读理解具有光明的前途，目前只是在起步阶段，未来科大讯飞也会继续探索。

以下是采访实录，在不改变原意的情况下有删减：

问：在SQuAD之前还有哪些类似的数据集？相比SQuAD有什么不足之处？

王士进：像谷歌的Deepmind做过一个数据集，其主要是在新闻领域上，就是在新闻前面要有一个摘要，摘要就是对正文的内容进行总结，但摘要里面又没有实体，这就可以形成问题。不足之处就是有摘要的新闻缺少数据的证明；

Facebook的特点是用机器自动生成问题。这样做的不足之处有两个：一个是用机器生成问题，还用机器去学习，这样就比较容易学到机器的Model；另一个是用机器生成问题的集合不大。

所以造成大家SQuAD认为是阅读理解的ImageNet的原因：一是它是通过人工做出来的问题；二是这个数据集是非常大的，所以很多的研究人员都围绕它做一些研究工作。

问：阅读理解是NLP领域里一个比较关键的问题吗？

王士进：是的，这是一个大家公认的比较困难的一个问题。首先隐含的是精准的问答，我们所知道的IBM Watson在和人类选手PK的过程中，更多依靠的是对知识的记忆，这是人对于机器比较，较弱的地方，但如果是在理解的层面上，机器与人类相比就远远不如了。

问：iMageNet竞赛已经有八年历史，而SQuAD近两年才出来，为什么会晚这么长时间？

王士进：这就与阅读理解方面的技术有关了。早起在分析篇章问题，然后去找对应的关系，这样整体出现的错误就会比较多，这也是技术进展不大的一个原因。而在近几年当中，随着深度学习在自然语音领域的应用，大家就会用深度学习来分析篇章的问题，所以这才有了一些进展，斯坦福也是在这种潮流下推出的SQuAD。

问：换句话说，SQuAD的起点比ImageNet要高？

王士进：对，SQuAD现在才是第二年，大家的模糊匹配结果(F1-Score)已经普遍做到百分之八十多了，但大家希望可以做到百分之九十甚至是更多，我估计再有一年左右的时间，就可以做到这样的成绩了，现在主要是SQuAD推出的时间晚了一些。

问：再往后呢？比如说，95%或者99%?

王士进：这方面我们像ImageNet一样，做到一定程度可能就不会再做下去了。这有两种类型：一种是可能会基本解决现在的问题，然后提出新的问题，另一种是解决问题之后往产品化方向去做。

我们也在做产品方面的尝试，例如电子说明书，现在的人们对电子化程度要求越来越高，说明书也是比较复杂，所以有时在遇到问题的时候是不清楚的。我们要把这块技术与原来的语音相结合，但有可能会进行更深一步的服务。

问：这次讯飞取得了第一名的成绩，采用的方法和其他参赛者有什么不同吗？

王士进：原来的做法是会给出一些训练集，然后通过神经网络去学习，自动构建问题和答案的一种方式。但我们的做法与之不同的地方是：一是开始我们会锁定一些片段，然后经过过滤，找出更精准的内容，去除干扰，最后找到问题的答案。二是我们采用了模型融合的方式。

问：所以现在就是在看，谁能够第一个突破一个比较重要的关口，比如说90%？

王士进：对，我们认为90%是一个比较重要的关卡，再往后我们就看谁能实际的去应用了。就这个数据集本身来说，到了90%以后的意义并不大，最关键的还是要把这个技术尽快落实。

问：除了现实应用的这些问题，讯飞在做这方面的研究时遇到一些怎样的挑战，如何解决的？

王士进：目前最大的问题是要控制好问题的边界。机器选择答案的边界很容易多一个词或者少一个词，这就造成了答案的不够准确，而人类在做这种问题的时候就不会出现这种问题。我们在初期也遇到了这种问题，但在后期这种情况就逐步好转了。

问：讯飞已经做出了最好的阅读理解系统，在未来还有怎样的计划？

王士进：哈工大讯飞联合实验室本次在SQuAD测试集获全球最佳，但对于讯飞来说，这才是扬帆起航的第一步，讯飞会继续在自然语言领域的研究工作，在以后，讯飞也会在不同领域继续探索阅读理解技术应用落地的研究。

标签：

行业语音识别自然语言处理NLP 科大讯飞

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI生死劫，什么样的公司将被洪流吞噬？

下一篇百度掉队了？正好相反，未来掉队的或许是腾讯阿里

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术