远程监督数据集中的噪声问题

最新推荐文章于 2023-05-23 21:48:29 发布

nodeTe

最新推荐文章于 2023-05-23 21:48:29 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/weixin_44517247/article/details/96477974

版权

远程监督数据集中的噪声问题

Distant Supervision
产生两个问题
- 错误标签问题
- 错误传播或累积
数据集

最近阅读了几篇论文，看了一些资料，总结一下所得。

Distant Supervision

远程监督（Distant Supervision；Mintz et al., 2009）常被用来快速自动构建关系抽取任务数据集，注意点有二：

一个假设：如果两个实体在知识库中具有关系，那么包含这两个实体的所有句子都将表达这种关系。例如，对知识库中的关系事实（李逍遥，人物关系/亲属关系/血亲/自然血亲/子女/女儿，李忆如），远程监督会将包含这两个实体的所有句子视为关系人物关系/亲属关系/血亲/自然血亲/子女/女儿的活动实例。
通过现有知识库中的三元组对无标注的文本进行对齐（常将Freebase与纽约时报数据库NYT对齐），如果三元组中两个实体都出现在一条句子中，则将这个句子中两个实体的关系标注为三元组中的关系。

产生两个问题

错误标签问题

含有两个目标实体的句子不一定揭示其两者之间关系，可能只是共享某一相同 topic，此时会造成错误标签问题。还是以（李逍遥，人物关系/亲属关系/血亲/自然血亲/子女/女儿，李忆如）为例，产生的数据集如下图，数据集关系都标注为人物关系/亲属关系/血亲/自然血亲/子女/女儿，错误标签现象严重。

在这里插入图片描述解决方法：论文采用多实例学习（multi-instance learning）方法。大致思路是一个句子就是一个实例，将含有两个相同实体的所有句子作为一个包，这样，数据库被划分为大量的包，每个包中有很多实例，我们在包级别处理关系。每个包需要给出标签，而其中的实例不需要给出标签，这样就考虑了实例标签的不确定性。对包中的每个实例算出置信度，最后包的关系标签只考虑高置信度的实例，而通过淘汰低置信度的实例解决错误标签问题。

错误传播或累积

数据表明，句法分析的准确性随着句子长度的增加而迅速降低，而一般语料库中的很多句子的长度都大于40，不可避免地造成错误传播或累积问题。

解决方法：通过分段卷积（PCNN）的方式来捕获结构信息，将一个句子从两个实体的位置切分为三段，对分段最大池而不是整个句子最大池来确定最重要的特征。

数据集

MUC 新闻语料、限定领域、飞机失事 and 航天器发射事件报道 MUC-7
ACE 对MUC定义的任务进行了融合、分类和细化，ACE 2005 dataset->599个新闻和电子邮件相关的文档，7种主要类型的关系，每种平均700个实例
TAC-KBP 维基百科快照，对ACE定义的任务进一步修订，分为四个独立任务和一个整合任务
SemEval-2010 Task8 dataset 9种有序关系，算上NA没有关系一共2*9+1（19）种，常用于词义消歧评测
Freebase DBpedia Yago Wikidata 等

nodeTe

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
远程监督数据集中的噪声问题

远程监督数据集中的噪声问题Distant Supervision产生两个问题错误标签问题错误传播或累积数据集最近阅读了几篇论文，看了一些资料，总结一下所得。Distant Supervision远程监督（Distant Supervision；Mintz et al., 2009）常被用来快速自动构建关系抽取任务数据集，注意点有二：一个假设：如果两个实体在知识库中具有关系，那么包含这两个...
复制链接

扫一扫