试码ML1208

齐思

于 2018-12-08 22:48:19 发布

阅读量141

点赞数

分类专栏： Python

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

［机器学习］机器学习在短文本分类项目中的应用

https://blog.csdn.net/cloud_xiaobai/article/details/80855905

一、数据集

1.类别与内容中间用\t
2.搜集资料
一般来说现有的问题学术界都已经给出了解决方案，所以可以通过关键词（短文本分类/Text Classfication）去搜索（百度/中国知网/Google Scholar）

解决短文本分类有以下几种常见的解决方案：

（1）通过TF-IDF算法生成每个短文本的特征向量，然后使用传统分类算法去训练模型，通过模型去预测新数据的类别。——本文

（2）通过Word2Vec算法生成每个短文本的特征向量，然后使用CNN卷积神经网络进行模型训练，通过模型去预测新数据的类别。

（3）通过Word2Vec算法生成每个短文本的特征向量，然后使用CNN进行文本语义相似度分析，通过文本相似度判断所属类别。

3.人工探查和数据分析
实际项目中，样本分布不均匀和样本质量低下
4.替换
Q1 结巴分词、计词数
Q2 line.split()[-1] != ‘3’
5、data_explore结果

#可用于可视化
各类别所占比例：
    category   num     ratio        times
0     一日游问题   322  0.014883    25.136646
1     供应商问题     6  0.000277  1349.000000
2        其他   260  0.012017    31.130769
3      其他咨询  2892  0.133666     2.798755
4        发票    52  0.002403   155.653846

小于3500的类别： {'一日游问题': 322, '供应商问题': 6, '其他': 260}

get
1.如果采用Word2Vec方法，向量维度可以降低到几百维，这时可以使用K-means算法对样本进行聚类，对距离类别中心点较远的样本点进行过滤，同样可以采用Smote算法进行采样，有效的解决了脏样本过滤和类别不平衡的问题，降低了模型过拟合的风险

齐思

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
试码ML1208

［机器学习］机器学习在短文本分类项目中的应用https://blog.csdn.net/cloud_xiaobai/article/details/80855905一、数据集1.类别与内容中间用\t2.搜集资料一般来说现有的问题学术界都已经给出了解决方案，所以可以通过关键词（短文本分类/Text Classfication）去搜索（百度/中国知网/Google Scholar）解...
复制链接

扫一扫