评估方面
数据集
疑问句判断数据集已建立,格式如下。
label 1表示是疑问句,label 0不是疑问句
xgboost模型
本部分使用的是xgboost模型。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN,
MPI, Sungrid Engine等各个平台上面运行,并且保留了单机并行版本的各种优化,使得它可以很好地解决于工业界规模的问题。
不断地添加树,不断地进行特征分裂来完成一棵树的构建。每次添加一个树,实际上是学习一个新函数,去拟合上次预测的残差。我们训练完成时会得到 [公式]棵树 。
实现
1、加载语料
corpus_path = cls._config.get('interrogative', 'corpus_path')
corpus = cls.read_corpus_from_file(corpus_path)
corpus_path是提前定义的训练集的文件路径
2、结巴分词
tokenizer = jieba.Tokenizer()
corpus['tokens'] = corpus.content.apply(lambda x: list(tokenizer.cut(x)))
3、TFIDF特征提取
vectorizer = TfidfVectorizer(smooth_idf=True,
ngram_range=(1, 1),
min_df=1, norm='l1')
work_vector = vectorizer.fit_transform(train.tokens.apply(lambda x: ' '.join(x)).tolist())
label = train.label.tolist()
对分词后的数据提取特征矩阵,并将生成的词典保存下joblib.dump(vectorizer, cls._config.get(‘interrogative’, ‘tfidf_vectorizer_path’))
4、模型训练
self.model = xgb.train(dtrain=self.train_matrix, params=best_param, num_boost_round=best_iter_round)
5、保存模型
joblib.dump(self.model, "classification.pkl")