导读:机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(Natural Language Processing,NLP)的范畴,也是其中最新、最热门的课题之一。
近年来,随着机器学习(Machine Learning),特别是深度学习(Deep Learning)的发展,机器阅读理解研究有了长足的进步,并在实际应用中崭露头角。
本文将介绍机器阅读理解任务的相关概念,并讨论这项课题所涉及的自然语言处理这项关键支撑技术。
作者:朱晨光
来源:大数据DT(ID:hzdashuju)
01 机器阅读理解任务
学者C. Snow于2002年发表的一篇论文中将阅读理解定义为“通过交互从书面文字中提取与构造文章语义的过程”。而机器阅读理解的目标是利用人工智能技术,使计算机具有和人类一样理解文章的能力。
图1所示为机器阅读理解的一个样例。示例中,机器阅读理解模型需要用文章中的一段原文来回答问题。
▲图1 机器阅读理解任务样例
1. 机器阅读理解模型
机器阅读理解模型的输入为文章和问题文本,输出为最终的回答。为了完成任务,模型需要深度分析文章语义以及文章和问题之间的联系,然后根据文章中的内容作出准确回答。
当前,绝大多数机器阅读理解算法均采用深度学习模型,利用深度神经网络进行建模与优化。深度学习的特点是,模型能根据训练集上预测的准确度直接优化参数,不断提高模型性能,从而达到很好的效果。
由于深度学习需要在数值空间处理信息,因此阅读理解模型首先要对文章和问题进行数字化表示,形成文本编码。常见的方法是词向量(word vector):将文本分成若干单词,然后用一串数字(即一个向量)表示一个单词。
文本的数字化表示:分词与词向量
原文:今天天气真好
分词:今天|天气|真|好
词向量:
今天:[3.2, -1.5, 6.0]
天气:[-0.2