论文笔记6:Distant supervision for relation extraction without labeled data

这篇论文提出了一种远程监督方法,用于在没有标签数据的情况下进行关系抽取。通过假设句子中包含的实体对体现了Freebase中的某种关系,以此构建训练样本。尽管这种方法存在实体对可能具有多种关系的问题,但后续研究通过改进实体对齐和引入多实例多标签等方法,显著提高了关系抽取的准确性。实验表明,远程监督能利用大规模数据,减少对人工标注的依赖,提高抽取效果。
摘要由CSDN通过智能技术生成

提出远程监督,从缺少标签的数据中抽取二元关系

一、论文要解决的问题

对于ACE等抽取任务,关系抽取的经典模型是基于监督学习的算法。此片论文提出了一种不依赖标签数据的算法,降低了对数据集的依赖,尤其适合于大规模数据集合抽取。

1.1 机器学习方法存在的问题

  1. 在有监督机器学习方法中,首先需要人工标注句子中的实体和他们之间的关系。例如在ACE任务中,提供的数据集里包括1000多分文档,每个文档中每对实体之间被标注了5-7个主要关系类型和23-24个子关系类型,总共16771中关系实例。
  2. 有监督机器学习方法训练集人工标注成本太高,所以限制了数量。而且,实体关系往往局限于一个特定的数据集,所以基于此训练出来的分类器往往无法很好的用在其它领域数据集上。
  3. 对于无监督机器学习方法,可以对超大数据集抽取超级多关系结果,但是这些抽取结果关系想要映射到具体的关系需要一定领域知识基础。
  4. 使用种子实例和模板匹配的方法抽取来做bootstrap,精度比较低,语义会漂移。关于Bootstrap的理解
    • 区分bootstrap、bagging、boosting和adaboost

二、论文主要贡献和亮点

针对上面问题,作者提出了远程监督。

2.1 远程监督

  1. 是前面方法得一种优点得综合
  2. 远程监督类似于弱监督
  3. 实验从Freebase中抽取实体关系(Freebase一共有900w实体,7300中关系,1.16亿关系实例)

2.2 远程监督思想

远程监督得主要思想是:假设一个句子包含某对实体,那么这个句子应该蕴含了两个实体间的关系(Freebase中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值