随着PLM模型提出,SQuad上的performance已经很高了。
高于人类的performance。
判断答案的类型,不需要推理。
不是真正人做的resoning。
问题:squad是否不太满足目前的研究?
多跳推理的例子:
电影导演是谁
如何检验模型的能力(多跳推理)?HotpotQA
BAG模型包括5个部分:
1.实体图的建立
2.特征的层级
3.GCN层
4.bi directional attention layer双向注意力层
5.进行预测的输出层
文本,文档,word token,如何build这样的graph
不同文档之间的entity,connection
同一个实体出现在不同的文档中,不同的实体节点,在同一个
进行信息的share
训练拆分系统
从推理的可解释性出发