hyper-parameters:在训练模型时,有些参数是需要手动设置的,每个参数有一个可选的范围或者列表可供训练,可以调用sklearn的GridSearchCV函数来自动统计搜索。http://blog.csdn.net/u010454729/article/details/50754460
development set:在paper中也简写成dev。一般在训练模型时需要用到交叉验证,这部分用来交叉验证训练的样本成为dev set
交叉验证:在统计模型的预测准确率时,一般将样本分成10份,其中一份用作测试集合,另外9份作为训练集合;这样的组合有10种,每一种组合都对应一个准确率,最终的准确率是10个准确率的平均值。也可通过sklearn的GridSearchCV函数实现。传入一个CV值就代表将数据分为几份。
evaluation set:训练完后,用来验证模型的样本集合。
BIO scheme:在aspect-extract里“B-TERM”indicates thestart of an aspect term, “I-TERM” indicates the contin