提出远程监督,从缺少标签的数据中抽取二元关系
一、论文要解决的问题
对于ACE等抽取任务,关系抽取的经典模型是基于监督学习的算法。此片论文提出了一种不依赖标签数据的算法,降低了对数据集的依赖,尤其适合于大规模数据集合抽取。
1.1 机器学习方法存在的问题
- 在有监督机器学习方法中,首先需要人工标注句子中的实体和他们之间的关系。例如在ACE任务中,提供的数据集里包括1000多分文档,每个文档中每对实体之间被标注了5-7个主要关系类型和23-24个子关系类型,总共16771中关系实例。
- 有监督机器学习方法训练集人工标注成本太高,所以限制了数量。而且,实体关系往往局限于一个特定的数据集,所以基于此训练出来的分类器往往无法很好的用在其它领域数据集上。
- 对于无监督机器学习方法,可以对超大数据集抽取超级多关系结果,但是这些抽取结果关系想要映射到具体的关系需要一定领域知识基础。
- 使用种子实例和模板匹配的方法抽取来做bootstrap,精度比较低,语义会漂移。关于Bootstrap的理解
- 区分bootstrap、bagging、boosting和adaboost
二、论文主要贡献和亮点
针对上面问题,作者提出了远程监督。
2.1 远程监督
- 是前面方法得一种优点得综合
- 远程监督类似于弱监督
- 实验从Freebase中抽取实体关系(Freebase一共有900w实体,7300中关系,1.16亿关系实例)
2.2 远程监督思想
远程监督得主要思想是:假设一个句子包含某对实体,那么这个句子应该蕴含了两个实体间的关系(Freebase中