ACE2004数据集介绍

ACE2004数据集介绍

来源

ACE2004数据集包含2004年自动内容提取(ACE)技术评估的全套英文、阿拉伯文和中文培训数据。语料库由各种类型的数据组成,对实体和关系进行注释,由语言数据联盟在ACE计划的支持下创建,并得到DARPA TIDE(跨语言信息检测、提取和摘要)计划的额外帮助。该数据以前作为电子语料库(LDC2004E17)分发给2004年ACE评估的参与者。

ACE计划的目标是开发自动内容提取技术,以支持文本形式的人类语言自动处理。2004年9月,对六个领域的网站进行了系统性能评估:实体检测和识别(EDR)、实体提及检测(EMD)、EDR共同参考、关系检测和识别(RDR)、关系提及检测(RMD)和RDR给定参考实体。所有任务均以三种语言进行评估:英语、汉语和阿拉伯语。

ACE 2004评估的完整说明可在美国国家标准与技术研究所(NIST)维护的ACE项目网站上找到:http://www.nist.gov/speech/tests/ace/

有关ACE计划语言资源的更多信息,包括注释指南、任务定义、免费注释工具和其他文档,请访问LDC的ACE网站:http://www.ldc.upenn.edu/Projects/ACE

目录结构

里面包含了三个文件夹:
ace2004根目录
主要使用data文件夹:

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值