ace2005 数据集预处理方法,oneie与JMEE方式

在事件抽取研究中,一般常用的数据集有ace2005和tac等,ace2005是最常用的数据集,它的文件众多格式复杂,通常论文使用两种格式进行预处理,即

ONEIE 和JMEE ,并涉及数据划分方式的差异 以及保存的格式的差异。

下面来说下具体处理程序及方法:

oneIE : 原始论文为 A Joint Neural Model for Information Extraction with Global Features

处理程序下载: BLENDER Lab | Software

编写本文时为0.48版本,可以下载最新的。

处理程序为 preprocess下的process_ace.py , 处理命令行为:

注意要切换当前 目录到 oneie的根目录,如 ooneie-0.48

ACE_DATA_FOLDER=<ACE_PATH>   #改为实际的ace的目录
mkdir -p data/ace05-EN
python preprocessing/process_ace.py -i ${ACE_DATA_FOLDER}/data -o data/ace05-EN -s resource/splits/ACE05-E -b bert-large-cased -l english
wc -l data/ace05-EN/*

将里面的-i 后面的路径改为你的ace数据集路径即可,要指向ace下的data目录,-o 后面的是输出 目录,自己创建一个并修改为你创建的路径。

不要问我怎么得到的ace数据集。。。。

JMEE方式,论文为 Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

处理程序 及教程

(1条消息) ACE2005 英文语料预处理_Big Watermonster~的博客-CSDN博客

亲自测试的结果与上文相符 

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值