论文笔记6：Distant supervision for relation extraction without labeled data

最新推荐文章于 2022-03-30 21:38:33 发布

腾云丶

最新推荐文章于 2022-03-30 21:38:33 发布

阅读量5.2k

点赞数

分类专栏： A关系抽取关系抽取论文阅读文章标签：关系抽取远程监督自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wen_fei/article/details/80500654

版权

这篇论文提出了一种远程监督方法，用于在没有标签数据的情况下进行关系抽取。通过假设句子中包含的实体对体现了Freebase中的某种关系，以此构建训练样本。尽管这种方法存在实体对可能具有多种关系的问题，但后续研究通过改进实体对齐和引入多实例多标签等方法，显著提高了关系抽取的准确性。实验表明，远程监督能利用大规模数据，减少对人工标注的依赖，提高抽取效果。

摘要由CSDN通过智能技术生成

提出远程监督，从缺少标签的数据中抽取二元关系

一、论文要解决的问题

对于ACE等抽取任务，关系抽取的经典模型是基于监督学习的算法。此片论文提出了一种不依赖标签数据的算法，降低了对数据集的依赖，尤其适合于大规模数据集合抽取。

1.1 机器学习方法存在的问题

在有监督机器学习方法中，首先需要人工标注句子中的实体和他们之间的关系。例如在ACE任务中，提供的数据集里包括1000多分文档，每个文档中每对实体之间被标注了5-7个主要关系类型和23-24个子关系类型，总共16771中关系实例。
有监督机器学习方法训练集人工标注成本太高，所以限制了数量。而且，实体关系往往局限于一个特定的数据集，所以基于此训练出来的分类器往往无法很好的用在其它领域数据集上。
对于无监督机器学习方法，可以对超大数据集抽取超级多关系结果，但是这些抽取结果关系想要映射到具体的关系需要一定领域知识基础。
使用种子实例和模板匹配的方法抽取来做bootstrap，精度比较低，语义会漂移。关于Bootstrap的理解
- 区分bootstrap、bagging、boosting和adaboost

二、论文主要贡献和亮点

针对上面问题，作者提出了远程监督。

2.1 远程监督

是前面方法得一种优点得综合
远程监督类似于弱监督
实验从Freebase中抽取实体关系（Freebase一共有900w实体，7300中关系，1.16亿关系实例）

2.2 远程监督思想

远程监督得主要思想是：假设一个句子包含某对实体，那么这个句子应该蕴含了两个实体间的关系（Freebase中

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

腾云丶 CSDN认证博客专家 CSDN认证企业博客

码龄10年

97: 原创

4万+: 周排名

120万+: 总排名

32万+: 访问

: 等级

3809: 积分

124: 粉丝

180: 获赞

80: 评论

454: 收藏

私信

关注

热门文章

分类专栏

最新评论

node2vec代码详解
AI．愚人自愈: 所以有gpu加速版本的实现吗求 1W+的节点慢的离谱了
Balsamiq Mockups注册码
苦der学习人: 这一个都不行呀
Pytorch求索(2)： Pytorch使用visdom进行可视化
Dreaming_of_you: 很齐全。补充关于update的一点信息（来自官网md）： update can be used to efficiently update the data of an existing plot. Use 'append' to append data, 'replace' to use new data, or 'remove' to remove the trace specified by name. Using update='append' will create a plot if it doesn't exist and append to the existing plot otherwise. If updating a single trace, use name to specify the name of the trace to be updated. Update data that is all NaN is ignored (can be used for masking update).
东南大学毕业论文latex模板
L'polaris: 用Texstudio打开，编译出现，seuthesix.cls文件的错误：不知道您还记得不，知道怎么解决嘛还？ line 65: Undefined control sequence. \setCJKmainfont line 65: Missing \begin{document}. \setCJKmainfont{S line 83: Undefined control sequence. \setmainfont
node2vec代码详解
spring__festival: 请问解决了吗。。我也有这个问题

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。