OntoNotes 4.0、OntoNotes 5.0数据集介绍 && 下载

来源: AINLPer公众号(每日干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2023-6-30

引言

 OntoNotes 4.0、OntoNotes 5.0数据集对于众多研究人员及开发人员来说,是一个非常重要的资源,它提供了丰富的语义注释数据,用于训练和评估各种NLP任务和模型。它已经被广泛应用于命名实体识别、词性标注、句法分析、语义角色标注等任务的研究和开发中,并对推动自然语言处理领域的进展做出了贡献。

了解这两个数据集的同学,需要下载的,可拉到最后。

OntoNotes 4.0

 OntoNotes 4.0是由康奈尔大学、宾夕法尼亚大学和新闻集团(New York Times)合作创建和维护的大规模语义注释数据集。它是OntoNotes系列数据集的第四个版本,发布于2011年。

 OntoNotes Release 4.0 包含早期版本(OntoNotes Release 1.0 LDC2007T21、OntoNotes Release 2.0 LDC2008T04 和 OntoNotes Release 3.0 LDC2009T24)的内容,并添加了英文和中文的新闻专线、广播新闻、广播对话和网络数据以及阿拉伯语的新闻专线数据。 该出版物累计字数为 240 万字,具体如下: 阿拉伯语新闻专线 30 万字、中文新闻专线 25 万字、中文广播新闻 25 万字、中文广播对话 15 万字、中文网络文本 15 万字、英文新闻专线 60 万字、20 万字 英语广播新闻词、20万词的英语广播对话和30万词的英语网络文本。

OntoNotes 5.0

 OntoNotes 5.0 是一个大型语料库,包含三种语言(英语、中文和阿拉伯语)的各种类型的文本(新闻、会话电话语音、网络博客、新闻组、广播、脱口秀)以及结构信息(语法和谓词参数结构)和 浅层语义(与本体和共指相关的词义)。OntoNotes 版本 5.0 包含早期版本的内容 - 并添加来自新闻专线、广播新闻、广播对话、电话对话和英语和中文网络数据以及阿拉伯语新闻专线数据的源数据和/或附加注释。

获取方法

方式1、注册LDC账号并加入组织获取数据,相关链接:LDC官方网站,具体申请流程可以参考:数据集申请流程

方式2、关注 AINLPer公众号,,回复:OntoNotes

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
【毕设源码】词汇增强NER 包含源码+数据集 词汇增强的NER 这是对于论文“Simplify the Usage of Lexicon in Chinese NER”的实现,该论文没有在中文NER中合并单词词典的复杂操作,而是将词典加入到中文NER中,这十分简单有效。 源代码说明 要求 Python 3.6 Pytorch 0.4.1 输入格式 CoNLL格式,每个字符及其标签由一行中的空格分隔。 首选“ BMES”标签方案。 别 O 错 O 过 O 邻 O 近 O 大 B-LOC 鹏 M-LOC 湾 E-LOC 的 O 湿 O 地 O 预训练的嵌入 预训练的嵌入(单词嵌入,char嵌入和bichar嵌入)与Lattice LSTM相同 运行代码 1.从Lattice LSTM 下载字符嵌入和单词嵌入,然后将它们放在data文件夹中。 2.分别在data / MSRANER,data / OntoNotesNER,data / ResumeNER和data / WeiboNER中下载四个数据集。 3.训练四个数据集: 在OntoNotes上进行训练: python main.py --train data/OntoNotesNER/train.char.bmes --dev data/OntoNotesNER/dev.char.bmes --test data/OntoNotesNER/test.char.bmes --modelname OntoNotes --savedset data/OntoNotes.dset 在Resume上进行训练: python main.py --train data/ResumeNER/train.char.bmes --dev data/ResumeNER/dev.char.bmes --test data/ResumeNER/test.char.bmes --modelname Resume --savedset data/Resume.dset --hidden_dim 200 在微博上训练: python main.py --train data/WeiboNER/train.all.bmes --dev data/WeiboNER/dev.all.bmes --test data/WeiboNER/test.all.bmes --modelname Weibo --savedset data/Weibo.dset --lr=0.005 --hidden_dim 200 在MSRA上进行训练: python main.py --train data/MSRANER/train.char.bmes --dev data/MSRANER/dev.char.bmes --test data/MSRANER/test.char.bmes --modelname MSRA --savedset data/MSRA.dset 4.训练/测试自己的数据:使用文件路径修改命令并运行。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值