共指消解CoNLL-2012/OntoNotes数据集下载与处理

本文主要参考:https://blog.csdn.net/yangjingyi0730/article/details/113243282

1. 数据获取

数据集获取地址:https://catalog.ldc.upenn.edu/LDC2013T19

2. 数据处理

数据集处理方式:https://conll.cemantix.org/2012/data.html

  • 首先把网页中提到的所有tar或者tar.gz文件都下载下来,我下载的时候发现谷歌Chrome浏览器无法下载,尝试Safari浏览器之后成功下载。
  • 解压之后都放在conll-2012文件夹下,v3里放scripts文件夹,v4/data里放train、development和test,v9/data里放test,总而言之就是对应的version放进去就行了。
  • 然后进入conll-2012/v3/scripts,运行以下脚本,第一个参数是第一步下载得到的数据路径(后面加data/files/data),第二个参数是第二步得到的conll-2012文件夹的路径。
bash skeleton2conll.sh -D [path/to/ontonotes-release-5.0/data/files/data] [path/to/conll-2012]

至此,everything is down!

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
conll-formatted-ontonotes-5.0是一个语料库数据集,它是按照CoNLL格式组织的。CoNLL表示Conference on Natural Language Learning,是一个自然语言学习领域的国际会议。该数据集的版本是5.0,包含了丰富的语言和语义标注信息。 这个数据集是基于Ontonotes语料库构建的,Ontonotes语料库收集了大量英语文本数据,并对其进行了广泛的语义标注工作。conll-formatted-ontonotes-5.0将Ontonotes语料库的标注信息转化为了CoNLL格式,使得研究人员可以更方便地使用这些数据进行各种自然语言处理任务的研究。 CoNLL格式是一种常用的表示多语种标注数据的格式,它将每个句子的词语和对应的标注信息排列成表格形式。每个单词占据一行,每个单词的各个属性(如词语本身、词性、依存关系等)以不同的列进行表示。这种格式的优势在于可以通过简单的表格操作对数据进行处理和分析。 conll-formatted-ontonotes-5.0的一个重要应用是用于训练和评估各种自然语言处理模型,如命名实体识别、语义角色标注、指代消解等。通过使用这个数据集,研究人员可以更好地理解语言中的语义信息,并开发出更准确和鲁棒的自然语言处理系统。 总而言之,conll-formatted-ontonotes-5.0提供了一个高质量的多语种语料库数据集,可用于各种自然语言处理任务的研究和开发。它的存在极大地促进了语义标注和语义理解研究的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值