CRF++在windows系统下不能处理大规模语料
目前针对1998年2个月的语料没有问题,但是3个月的语料就崩溃了
虽然版本升级,但是我们的服务器上仍然存在这个问题
CRF++升级的版本55-57,可以自动识别系统的CPU的数量
例如我们的服务器,他识别后自动给开16个线程,这样会导致程序崩溃。
限制一下线程数量,目前限制到4,小语料就可以正常跑了
查阅过使用CRF的文献,文献中最大的语料规模相当于5个月的人民日报。
还没有弄清是服务器问题,还是CRF++性能的问题,正在找解决办法,想试一下crfsuite
crfsuite试过了,结果还是不行,原因也还是由于L-BTGS的错误。为什么呢?研究一下