https://arxiv.org/pdf/1603.01547.pdf
变化点:我们提出了一个新的简单模型,它使用注意力模型直接从上下文中选择答案,而不像通常在类似模型中那样使用文档中的单词混合表示计算答案。
实现步骤
step 1 通过一层Embedding层将document和query中的word分别映射成向量。
step 2 用一个单层双向GRU来encode document,得到context representation,每个time step的拼接来表示该词。
step 3 用一个单层双向GRU来encode query,用两个方向的last state拼接来表示query。
step 4 每个word vector与query vector作点积后归一化的结果作为attention weights,就query与document中的每个词之前的相关性度量。
step 5 最后做一次相同词概率的合并,得到每个词的概率,最大概率的那个词即为answer。
参照笔记:https://zhuanlan.zhihu.com/p/21354432
https://blog.csdn.net/LaineGates/article/details/79240232