基于文本的问题生成(四)

评估方面

数据集

疑问句判断数据集已建立,格式如下。
label 1表示是疑问句,label 0不是疑问句
在这里插入图片描述

xgboost模型

本部分使用的是xgboost模型。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN,
MPI, Sungrid Engine等各个平台上面运行,并且保留了单机并行版本的各种优化,使得它可以很好地解决于工业界规模的问题。
不断地添加树,不断地进行特征分裂来完成一棵树的构建。每次添加一个树,实际上是学习一个新函数,去拟合上次预测的残差。我们训练完成时会得到​ [公式]棵树 。
在这里插入图片描述
在这里插入图片描述

实现

1、加载语料

 corpus_path = cls._config.get('interrogative', 'corpus_path')
        corpus = cls.read_corpus_from_file(corpus_path)

corpus_path是提前定义的训练集的文件路径

2、结巴分词

tokenizer = jieba.Tokenizer()
        corpus['tokens'] = corpus.content.apply(lambda x: list(tokenizer.cut(x)))

3、TFIDF特征提取

vectorizer = TfidfVectorizer(smooth_idf=True,
                                     ngram_range=(1, 1),
                                     min_df=1, norm='l1')
        work_vector = vectorizer.fit_transform(train.tokens.apply(lambda x: ' '.join(x)).tolist())
        label = train.label.tolist()

对分词后的数据提取特征矩阵,并将生成的词典保存下joblib.dump(vectorizer, cls._config.get(‘interrogative’, ‘tfidf_vectorizer_path’))

4、模型训练

self.model = xgb.train(dtrain=self.train_matrix, params=best_param, num_boost_round=best_iter_round)

5、保存模型

joblib.dump(self.model, "classification.pkl")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值