题目与摘要
本文针对什么任务?任务简要介绍下。
创建问答数据集,基于知识图谱
本文发现了什么问题?该文大体是怎么解决的?解决得如何?
以往的问答都是针对给定文字或者段落,提出问题,选择答案。回答问题所需的广泛知识背景(段落未给出)比较少。
基于CONCEPTNET创建了COMMONSESENSEQA数据集。在CONCEPTNET中抽取具有相同语义关系的source concept和target concept。以source为基础编写,target作为答案,编写单项选择题。希望workers可以利用到以前的知识。创建了12,247个问题。
acc baseline 56%,但是距离人类标准89%还有很大差距。
解释下题目。题目起得如何?能概括内容并吸引人吗?
题目简单明了,概括了整篇文章内容。
介绍
这个任务以往是如何解决的?作者沿着哪条路径继续研究的?为什么?
以往大部分是在给定文本中寻找问题答案,常识需求特别少。
SWAG给定事件的描述,推测后续的事件发展。但是在未标注的语料上就可以很好的训练,所以SWAG的水平已经达到人类。
VCR,看图回答问题:需要更广的常识。
目前工作存在什么问题?为什么?你觉得可能还存在什么其他问题?为什么?
目前的常识研究只触及表面。需要研究模型到底学习到了什么,以及还有什么缺陷。
常识的划分还不够细,CONCEPT与CONCEPT之间的relation对应到语言,还是有问题。一些语义规则是否能很好的融入到模型中,或者人类的语言规则与机器学习到的是否一致?
该文准备如何解决这个问题?为什么可以这样解决?你觉得该文解决这个问题的方法如何?为什么?你觉得可以如何/或更好的解决这个问题?为什么?
构建了一个基于CONCEPTNET的常识问答数据集,提出了完整的流程生成问题。
因为依据常识的生成问题中,选取一个source concept 以及3个具有相同语义关系的target concept。从中选取一个正确答案,并填加2个干扰项,并众包构建问题,筛选。
因为workers需要用到知识来构建问题以区分CONCEPT。
控制变量做的很好。因为这样构建的单选题的选项比较相似,难度也比较大,更易考验,模型是否能够区分。
我觉得应该使用大量的文本,让模型进行