基于文本的问题生成日志（三）

最新推荐文章于 2024-08-15 23:00:00 发布

weixin_46076318

最新推荐文章于 2024-08-15 23:00:00 发布

阅读量106

点赞数

分类专栏： nlp 文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46076318/article/details/115440622

版权

nlp 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

数据集
- 数据集处理
- 特征向量提取
模型

数据集

因为之前使用的是cmrc的数据集，里面的格式和我所做的部分不匹配，所以我自己新建了一个数据集，格式如下：
content,label
问句,1
不是问句,0
…

数据集处理

我采用的是结巴分词
tokenizer = jieba.Tokenizer()

特征向量提取

对分词后的语料进行TFIDF特征抽取，构造训练矩阵。

模型

本项目使用的是xgboost模型。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN,
MPI, Sungrid Engine等各个平台上面运行，并且保留了单机并行版本的各种优化，使得它可以很好地解决于工业界规模的问题。

weixin_46076318

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
基于文本的问题生成日志（三）

目录数据集数据集处理特征向量提取模型数据集因为之前使用的是cmrc的数据集，里面的格式和我所做的部分不匹配，所以我自己新建了一个数据集，格式如下：content,label问句,1不是问句,0…数据集处理我采用的是结巴分词tokenizer = jieba.Tokenizer()特征向量提取对分词后的语料进行TFIDF特征抽取，构造训练矩阵。模型本项目使用的是xgboost模型。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。