远程监督数据集中的噪声问题


最近阅读了几篇论文,看了一些资料,总结一下所得。

Distant Supervision

远程监督(Distant Supervision;Mintz et al., 2009)常被用来快速自动构建关系抽取任务数据集,注意点有二:

  1. 一个假设:如果两个实体在知识库中具有关系,那么包含这两个实体的所有句子都将表达这种关系。例如,对知识库中的关系事实(李逍遥,人物关系/亲属关系/血亲/自然血亲/子女/女儿,李忆如),远程监督会将包含这两个实体的所有句子视为关系人物关系/亲属关系/血亲/自然血亲/子女/女儿的活动实例。
  2. 通过现有知识库中的三元组对无标注的文本进行对齐(常将Freebase与纽约时报数据库NYT对齐),如果三元组中两个实体都出现在一条句子中,则将这个句子中两个实体的关系标注为三元组中的关系。

产生两个问题

错误标签问题

含有两个目标实体的句子不一定揭示其两者之间关系,可能只是共享某一相同 topic,此时会造成错误标签问题。还是以(李逍遥,人物关系/亲属关系/血亲/自然血亲/子女/女儿,李忆如)为例,产生的数据集如下图,数据集关系都标注为人物关系/亲属关系/血亲/自然血亲/子女/女儿,错误标签现象严重。

在这里插入图片描述解决方法:论文采用多实例学习(multi-instance learning)方法。大致思路是一个句子就是一个实例,将含有两个相同实体的所有句子作为一个包,这样,数据库被划分为大量的包,每个包中有很多实例,我们在包级别处理关系。每个包需要给出标签,而其中的实例不需要给出标签,这样就考虑了实例标签的不确定性。对包中的每个实例算出置信度,最后包的关系标签只考虑高置信度的实例,而通过淘汰低置信度的实例解决错误标签问题。

错误传播或累积

数据表明,句法分析的准确性随着句子长度的增加而迅速降低,而一般语料库中的很多句子的长度都大于40,不可避免地造成错误传播或累积问题。

解决方法:通过分段卷积(PCNN)的方式来捕获结构信息,将一个句子从两个实体的位置切分为三段,对分段最大池而不是整个句子最大池来确定最重要的特征。

数据集

MUC 新闻语料、限定领域、飞机失事 and 航天器发射事件报道 MUC-7
ACE 对MUC定义的任务进行了融合、分类和细化,ACE 2005 dataset->599个新闻和电子邮件相关的文档,7种主要类型的关系,每种平均700个实例
TAC-KBP 维基百科快照,对ACE定义的任务进一步修订,分为四个独立任务和一个整合任务
SemEval-2010 Task8 dataset 9种有序关系,算上NA没有关系一共2*9+1(19)种,常用于词义消歧评测
Freebase DBpedia Yago Wikidata 等

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值