基于文本的问题生成（四）

最新推荐文章于 2024-03-25 14:43:17 发布

weixin_46076318

最新推荐文章于 2024-03-25 14:43:17 发布

阅读量330

点赞数

分类专栏： nlp 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_46076318/article/details/115602145

版权

nlp 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

评估方面

数据集

疑问句判断数据集已建立，格式如下。
label 1表示是疑问句，label 0不是疑问句
在这里插入图片描述

xgboost模型

本部分使用的是xgboost模型。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN,
MPI, Sungrid Engine等各个平台上面运行，并且保留了单机并行版本的各种优化，使得它可以很好地解决于工业界规模的问题。
不断地添加树，不断地进行特征分裂来完成一棵树的构建。每次添加一个树，实际上是学习一个新函数，去拟合上次预测的残差。我们训练完成时会得到 [公式]棵树。
在这里插入图片描述

实现

1、加载语料

 corpus_path = cls._config.get('interrogative', 'corpus_path')
        corpus = cls.read_corpus_from_file(corpus_path)

corpus_path是提前定义的训练集的文件路径

2、结巴分词

tokenizer = jieba.Tokenizer()
        corpus['tokens'] = corpus.content.apply(lambda x: list(tokenizer.cut(x)))

3、TFIDF特征提取

vectorizer = TfidfVectorizer(smooth_idf=True,
                                     ngram_range=(1, 1),
                                     min_df=1, norm='l1')
        work_vector = vectorizer.fit_transform(train.tokens.apply(lambda x: ' '.join(x)).tolist())
        label = train.label.tolist()

对分词后的数据提取特征矩阵，并将生成的词典保存下joblib.dump(vectorizer, cls._config.get(‘interrogative’, ‘tfidf_vectorizer_path’))

4、模型训练

self.model = xgb.train(dtrain=self.train_matrix, params=best_param, num_boost_round=best_iter_round)

5、保存模型

joblib.dump(self.model, "classification.pkl")

weixin_46076318

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于文本的问题生成（四）

目录评估方面疑问句判断数据集xgboost模型评估方面疑问句判断数据集疑问句判断数据集已建立，格式如下。label 1表示是疑问句，label 0不是疑问句xgboost模型本部分使用的是xgboost模型。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN,MPI, Sungrid Engine等各个平台上面运行，并且保留了单机并行版本的各种优化，使得它可以
复制链接

扫一扫