CRF

最新推荐文章于 2021-08-10 21:07:29 发布

Young Hsu

最新推荐文章于 2021-08-10 21:07:29 发布

阅读量197

点赞数

本文链接：https://blog.csdn.net/weixin_45145160/article/details/107919455

版权

1、crf_learn -f 3 -c 4.0 template 4_train.data 4_model

-f, –freq=INT 使用属性的出现次数不少于INT(默认为1)
-m, –maxiter=INT 设置INT为LBFGS的最大迭代次数 (默认10k)
-c, –cost=FLOAT 设置FLOAT为代价参数，过大会过度拟合 (默认1.0)
-e, –eta=FLOAT 设置终止标准FLOAT(默认0.0001)
-C, –convert 将文本模式转为二进制模式
-t, –textmodel 为调试建立文本模型文件
-a, –algorithm=(CRF|MIRA) 选择训练算法，默认为CRF-L2
-p, –thread=INT线程数(默认1)，利用多个CPU减少训练时间
-H, –shrinking-size=INT 设置INT为最适宜的迭代变量次数 (默认20)
-v, –version 显示版本号并退出
-h, –help 显示帮助并退出
https://blog.csdn.net/feng_zhiyu/article/details/80793316

2、
不过在测试集里第三列主要是占位作用。事实上，CRF++对于训练集和测试集文件格式的要求是比较灵活的，首先需要多列，但不能不一致，既在一个文件里有的行是两列，有的行是三列；其次第一列代表的是需要标注的“字或词”，最后一列是输出位”标记tag”，如果有额外的特征，例如词性什么的，可以加到中间列里，所以训练集或者测试集的文件最少要有两列。
https://daiwk.github.io/posts/nlp-crfpp.html

3、AI工程师手册
https://www.bookstack.cn/read/huaxiaozhuan-ai/spilt.2.e967fab777c85fa4.md

4、unigram
一元模型