条件随机场
条件随机场的三种实现:
- CRF++
- CRFsuite
- CRFsgd
CRF++安装过程中的几个坑:
- 使用CRF++53,CRF++54好像有点儿问题;
- 安装时需要有gcc,g++;
- make时,报错“‘size_t’ has not been declared
”,需要在node.cpp文件及其他使用‘size_t’的文件中加入 #include “stdlib.h”
。原因大致是ubuntu14.04安装的gcc 不会默认引入stdlib.h 。 - 使用crf_learn报错,需要手动将CRF++-0.53/.libs/libcrfpp.so.0复制到/usr/lib下。
命名实体识别
人名识别:使用标注过的人民日报的数据,使用crf训练模型,进行人名的识别。
分词
crf模型也可用于分词,同样使用crf进行模型的训练,然后进行分词。但分词效果与语料库有很大的关系。
参考:http://fancyerii.github.io/sgdcrf/index.html