数据集
因为之前使用的是cmrc的数据集,里面的格式和我所做的部分不匹配,所以我自己新建了一个数据集,格式如下:
content,label
问句,1
不是问句,0
…
数据集处理
我采用的是结巴分词
tokenizer = jieba.Tokenizer()
特征向量提取
对分词后的语料进行TFIDF特征抽取,构造训练矩阵。
模型
本项目使用的是xgboost模型。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN,
MPI, Sungrid Engine等各个平台上面运行,并且保留了单机并行版本的各种优化,使得它可以很好地解决于工业界规模的问题。