在由斯坦福大学发起的SQuAD(Stanford Question Answering)数据集测试榜单中,科大讯飞与哈工大联合实验室提交的系统模型夺得第一。在ACL2017大会现场,对科大讯飞研究院副院长王士进进行了访问,王士进不仅介绍了科大讯飞取得良好成绩的关键因素,而且还对机器领域相关方面的研发方向做了解释。他认为,机器阅读理解具有光明的前途,目前只是在起步阶段,未来科大讯飞也会继续探索。
以下是采访实录,在不改变原意的情况下有删减:
问:在SQuAD之前还有哪些类似的数据集?相比SQuAD有什么不足之处?
王士进:像谷歌的Deepmind做过一个数据集,其主要是在新闻领域上,就是在新闻前面要有一个摘要,摘要就是对正文的内容进行总结,但摘要里面又没有实体,这就可以形成问题。不足之处就是有摘要的新闻缺少数据的证明;
Facebook的特点是用机器自动生成问题。这样做的不足之处有两个:一个是用机器生成问题,还用机器去学习,这样就比较容易学到机器的Model;另一个是用机器生成问题的集合不大。
所以造成大家SQuAD认为是阅读理解的ImageNet的原因:一是它是通过人工做出来的问题;二是这个数据集是非常大的,所以很多的研究人员都围绕它做一些研究工作。
问:阅读理解是NLP领域里一个比较关键的问题吗?
王士进:是的,这是一个大家公认的比较困难的一个问题。首先隐含的是精准的问答,我们所知道的IBM Watson在和人类选手PK的过程中,更多依靠的是对知识的记忆,这是人对于机器比较,较弱的地方,但如果是在理解的层面上,机器与人类相比就远远不如了。
问:iMageNet竞赛已经有八年历史,而SQuAD近两年才出来,为什么会晚这么长时间?
王士进:这就与阅读理解方面的技术有关了。早起在分析篇章问题,然后去找对应的关系,这样整体出现的错误就会比较多,这也是技术进展不大的一个原因。而在近几年当中,随着深度学习在自然语音领域的应用,大家就会用深度学习来分析篇章的问题,所以这才有了一些进展,斯坦福也是在这种潮流下推出的SQuAD。
问:换句话说,SQuAD的起点比ImageNet要高?
王士进:对,SQuAD现在才是第二年,大家的模糊匹配结果(F1-Score)已经普遍做到百分之八十多了,但大家希望可以做到百分之九十甚至是更多,我估计再有一年左右的时间,就可以做到这样的成绩了,现在主要是SQuAD推出的时间晚了一些。
问:再往后呢?比如说,95%或者99%?
王士进:这方面我们像ImageNet一样,做到一定程度可能就不会再做下去了。这有两种类型:一种是可能会基本解决现在的问题,然后提出新的问题,另一种是解决问题之后往产品化方向去做。
我们也在做产品方面的尝试,例如电子说明书,现在的人们对电子化程度要求越来越高,说明书也是比较复杂,所以有时在遇到问题的时候是不清楚的。我们要把这块技术与原来的语音相结合,但有可能会进行更深一步的服务。
问:这次讯飞取得了第一名的成绩,采用的方法和其他参赛者有什么不同吗?
王士进:原来的做法是会给出一些训练集,然后通过神经网络去学习,自动构建问题和答案的一种方式。但我们的做法与之不同的地方是:一是开始我们会锁定一些片段,然后经过过滤,找出更精准的内容,去除干扰,最后找到问题的答案。二是我们采用了模型融合的方式。
问:所以现在就是在看,谁能够第一个突破一个比较重要的关口,比如说90%?
王士进:对,我们认为90%是一个比较重要的关卡,再往后我们就看谁能实际的去应用了。就这个数据集本身来说,到了90%以后的意义并不大,最关键的还是要把这个技术尽快落实。
问:除了现实应用的这些问题,讯飞在做这方面的研究时遇到一些怎样的挑战,如何解决的?
王士进:目前最大的问题是要控制好问题的边界。机器选择答案的边界很容易多一个词或者少一个词,这就造成了答案的不够准确,而人类在做这种问题的时候就不会出现这种问题。我们在初期也遇到了这种问题,但在后期这种情况就逐步好转了。
问:讯飞已经做出了最好的阅读理解系统,在未来还有怎样的计划?
王士进:哈工大讯飞联合实验室本次在SQuAD测试集获全球最佳,但对于讯飞来说,这才是扬帆起航的第一步,讯飞会继续在自然语言领域的研究工作,在以后,讯飞也会在不同领域继续探索阅读理解技术应用落地的研究。
本文转载自ATYUN人工智能信息平台,原文链接:科大讯飞专访:想在阅读理解系统领域成为第一,这才是第一步!
更多推荐
Affectiva的情感识别AI使机器人Pepper更好地理解人类
DigitalGenius推出基于AI的对话过程自动化,实现端到端客户支持案例解决方案