OntoNotes 4.0、OntoNotes 5.0数据集介绍 && 下载

最新推荐文章于 2024-04-26 16:08:14 发布

AINLPer

最新推荐文章于 2024-04-26 16:08:14 发布

阅读量989

点赞数 2

分类专栏：自然语言数据集分享文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/yinizhilianlove/article/details/131471975

版权

自然语言数据集分享专栏收录该内容

21 篇文章 0 订阅

订阅专栏

来源: AINLPer公众号（每日干货分享！！）
编辑: ShuYini
校稿: ShuYini
时间: 2023-6-30

引言

OntoNotes 4.0、OntoNotes 5.0数据集对于众多研究人员及开发人员来说，是一个非常重要的资源，它提供了丰富的语义注释数据，用于训练和评估各种NLP任务和模型。它已经被广泛应用于命名实体识别、词性标注、句法分析、语义角色标注等任务的研究和开发中，并对推动自然语言处理领域的进展做出了贡献。

了解这两个数据集的同学，需要下载的，可拉到最后。

OntoNotes 4.0

OntoNotes 4.0是由康奈尔大学、宾夕法尼亚大学和新闻集团（New York Times）合作创建和维护的大规模语义注释数据集。它是OntoNotes系列数据集的第四个版本，发布于2011年。

OntoNotes Release 4.0 包含早期版本（OntoNotes Release 1.0 LDC2007T21、OntoNotes Release 2.0 LDC2008T04 和 OntoNotes Release 3.0 LDC2009T24）的内容，并添加了英文和中文的新闻专线、广播新闻、广播对话和网络数据以及阿拉伯语的新闻专线数据。该出版物累计字数为 240 万字，具体如下：阿拉伯语新闻专线 30 万字、中文新闻专线 25 万字、中文广播新闻 25 万字、中文广播对话 15 万字、中文网络文本 15 万字、英文新闻专线 60 万字、20 万字英语广播新闻词、20万词的英语广播对话和30万词的英语网络文本。

OntoNotes 5.0

OntoNotes 5.0 是一个大型语料库，包含三种语言（英语、中文和阿拉伯语）的各种类型的文本（新闻、会话电话语音、网络博客、新闻组、广播、脱口秀）以及结构信息（语法和谓词参数结构）和浅层语义（与本体和共指相关的词义）。OntoNotes 版本 5.0 包含早期版本的内容 - 并添加来自新闻专线、广播新闻、广播对话、电话对话和英语和中文网络数据以及阿拉伯语新闻专线数据的源数据和/或附加注释。