本文主要参考:https://blog.csdn.net/yangjingyi0730/article/details/113243282
1. 数据获取
数据集获取地址:https://catalog.ldc.upenn.edu/LDC2013T19
2. 数据处理
数据集处理方式:https://conll.cemantix.org/2012/data.html
- 首先把网页中提到的所有tar或者tar.gz文件都下载下来,我下载的时候发现谷歌Chrome浏览器无法下载,尝试Safari浏览器之后成功下载。
- 解压之后都放在conll-2012文件夹下,v3里放scripts文件夹,v4/data里放train、development和test,v9/data里放test,总而言之就是对应的version放进去就行了。
- 然后进入conll-2012/v3/scripts,运行以下脚本,第一个参数是第一步下载得到的数据路径(后面加data/files/data),第二个参数是第二步得到的conll-2012文件夹的路径。
bash skeleton2conll.sh -D [path/to/ontonotes-release-5.0/data/files/data] [path/to/conll-2012]
至此,everything is down!