[机器学习]机器学习在短文本分类项目中的应用
https://blog.csdn.net/cloud_xiaobai/article/details/80855905
一、数据集
1.类别与内容 中间用\t
2.搜集资料
一般来说现有的问题学术界都已经给出了解决方案,所以可以通过关键词(短文本分类/Text Classfication)去搜索(百度/中国知网/Google Scholar)
解决短文本分类有以下几种常见的解决方案:
(1)通过TF-IDF算法生成每个短文本的特征向量,然后使用传统分类算法去训练模型,通过模型去预测新数据的类别。——本文
(2)通过Word2Vec算法生成每个短文本的特征向量,然后使用CNN卷积神经网络进行模型训练,通过模型去预测新数据的类别。
(3)通过Word2Vec算法生成每个短文本的特征向量,然后使用CNN进行文本语义相似度分析,通过文本相似度判断所属类别。
3.人工探查和数据分析
实际项目中,样本分布不均匀和样本质量低下
4.替换
Q1 结巴分词、计词数
Q2 line.split()[-1] != ‘3’
5、data_explore结果
#可用于可视化
各类别所占比例:
category num ratio times
0 一日游问题 322 0.014883 25.136646
1 供应商问题 6 0.000277 1349.000000
2 其他 260 0.012017 31.130769
3 其他咨询 2892 0.133666 2.798755
4 发票 52 0.002403 155.653846
小于3500的类别: {'一日游问题': 322, '供应商问题': 6, '其他': 260}
get
1.如果采用Word2Vec方法,向量维度可以降低到几百维,这时可以使用K-means算法对样本进行聚类,对距离类别中心点较远的样本点进行过滤,同样可以采用Smote算法进行采样,有效的解决了脏样本过滤和类别不平衡的问题,降低了模型过拟合的风险