来源
ACE2004数据集包含2004年自动内容提取(ACE)技术评估的全套英文、阿拉伯文和中文培训数据。语料库由各种类型的数据组成,对实体和关系进行注释,由语言数据联盟在ACE计划的支持下创建,并得到DARPA TIDE(跨语言信息检测、提取和摘要)计划的额外帮助。该数据以前作为电子语料库(LDC2004E17)分发给2004年ACE评估的参与者。
ACE计划的目标是开发自动内容提取技术,以支持文本形式的人类语言自动处理。2004年9月,对六个领域的网站进行了系统性能评估:实体检测和识别(EDR)、实体提及检测(EMD)、EDR共同参考、关系检测和识别(RDR)、关系提及检测(RMD)和RDR给定参考实体。所有任务均以三种语言进行评估:英语、汉语和阿拉伯语。
ACE 2004评估的完整说明可在美国国家标准与技术研究所(NIST)维护的ACE项目网站上找到:http://www.nist.gov/speech/tests/ace/
有关ACE计划语言资源的更多信息,包括注释指南、任务定义、免费注释工具和其他文档,请访问LDC的ACE网站:http://www.ldc.upenn.edu/Projects/ACE
目录结构
里面包含了三个文件夹:
主要使用data文件夹: