一、准备工作
1.初始程序下载
crf_learn.exe CRF++的训练程序
crf_test.exe CRF++的预测程序
libcrfpp.dll 训练程序和预测程序需要使用的静态链接库
template
conlleval.pl
2.初始数据准备
-
人民日报1998年01月原始语料库 199801.txt
-
数据清洗
全角字符统一转为半角
单空格、三空格变双空格
中括号内容合并
合并人名data_clean.py
input:199801.txt
output:cleaned_data.txt -
分割语料(8:2随机),作为训练和测试原始语料
segment.py
input:cleaned_data.txt
output:train_data.txt 和 test_data.txt -
构建训练、测试数据集
train_data.py
input:train_data.txt
output:labeled_train_data
input:test_data.txt
output:labeled_test_data