入门文档级关系抽取_数据集DocRED、CDR、GDA

作为学习文档级关系抽取的短暂总结与记录。主要是相关数据集问题,如果能帮助到其他人,我也是很开心的。

文档级关系抽取论文

网上有很多文档级关系抽取的综述,他们会告诉你有哪些经典文献需要阅读,我就不再搬运了,可能网上综述有些滞后,可以通过paperwithcode看当前的leaderboard来阅读大当前效果好的文献。

文档级关系抽取数据集

当前最常用的就是DocRED,还有两个常用的医学数据集CDR和GDA。

DocRED

  • 数据集下载
  • 最终文件结果如图所示:DocRED数据集所有文件
  • 文件介绍(只介绍有用的,其他的我不了解)
    • rel2id.json:关系“P1376”的序号是79,就是标签,类别是79,其他一样,应该是比较好理解rel2id.json文件内容

    • rel_info.json:关系信息,关系标签对应现实世界中的具体关系rel_info.json

    • train_annotated.json:标注的训练集,
      ```python

        		{
        		    "vertexSet":[{"pos": [0, 4], "type": "ORG", "sent_id": 0, "name": "Zest Airways, Inc."},....]
        		    # 所有的实体,name:实体是啥 type:实体类型 sen_id:该实体所在的句子的序号 pos:该实体的头实体和尾实体的位置
        		    "labels": [{"r": "P159", "h": 0, "t": 2, "evidence": [0]},....]
        		    # 标签,也就是有哪些三元组,r表示三元组的关系,
        		    # h是是头实体所在的位置,0就表示头实体是"vertexSet"列表中的第一个实体,
        		    # t表示尾实体,2表示尾实体是"vertexSet"列表中的第二个实体
        		    # evidence:证据句子,就是支持抽取这个三元组的证据,这个例子里面就是第0个句子支持抽取出本三元组
        		    "title":["AirAsia Zest"]
        		    # 本篇文章的标题
        		    "sents":[["Zest", "Airways", ",", "Inc.", "operated"],["It", "operated", "scheduled"]...]
        		    # 文章的所有句子(分词之后的),列表的第一个元素就是句子0
        		}
        	```
      
    • train_instant.json:远程监督数据集,除了没有证据句子之外,其他的和train_annotated.json一样

    • dev.json:验证集,内容格式和标注训练集一样

    • test.json:测试集,测试集没有labels,那么如何获得模型在测试集上的结果呢,需要将模型在测试集上的预测结果上传CodaLab,获得测试集的结果,

      • 1.注册,登录就不多说了
      • 2.Participate->Submit/View Results,提交就可以,提交必须是ZIP文件,文件名为result.zip,里面的json为result.json.CodaLab_DocRED

CDR和GDA数据集

这两个数据集非常难搞,花了我好长时间,因为我在网上没有找到处理好的,只有源文件,需要自己处理
如果你只想下载数据集,我在百度网盘上传了一份,
CDR:https://pan.baidu.com/s/1tomnS0ciGCt3mibKx9qZfw
提取码:love

GDA:https://pan.baidu.com/s/1hDsO8PYVnaBqfNftHrT9Ng
提取码:love

如果你想自己处理,可以按照下面的步骤来做(Linux系统,windows下不会,哈哈),来自于https://github.com/fenchri/edge-oriented-graph为基础,但在过程中有点问题,你可以按照他的来处理,望顺利,如果不行,按照下面的步骤

暂时就这些,有问题大家可以提出来一起交流学习。

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值