试码ML1208

[机器学习]机器学习在短文本分类项目中的应用

https://blog.csdn.net/cloud_xiaobai/article/details/80855905

一、数据集

1.类别与内容 中间用\t
2.搜集资料
一般来说现有的问题学术界都已经给出了解决方案,所以可以通过关键词(短文本分类/Text Classfication)去搜索(百度/中国知网/Google Scholar)

解决短文本分类有以下几种常见的解决方案:

(1)通过TF-IDF算法生成每个短文本的特征向量,然后使用传统分类算法去训练模型,通过模型去预测新数据的类别。——本文

(2)通过Word2Vec算法生成每个短文本的特征向量,然后使用CNN卷积神经网络进行模型训练,通过模型去预测新数据的类别。

(3)通过Word2Vec算法生成每个短文本的特征向量,然后使用CNN进行文本语义相似度分析,通过文本相似度判断所属类别。

3.人工探查和数据分析
实际项目中,样本分布不均匀和样本质量低下
4.替换
Q1 结巴分词、计词数
Q2 line.split()[-1] != ‘3’
5、data_explore结果

#可用于可视化
各类别所占比例:
    category   num     ratio        times
0     一日游问题   322  0.014883    25.136646
1     供应商问题     6  0.000277  1349.000000
2        其他   260  0.012017    31.130769
3      其他咨询  2892  0.133666     2.798755
4        发票    52  0.002403   155.653846

小于3500的类别: {'一日游问题': 322, '供应商问题': 6, '其他': 260}

get
1.如果采用Word2Vec方法,向量维度可以降低到几百维,这时可以使用K-means算法对样本进行聚类,对距离类别中心点较远的样本点进行过滤,同样可以采用Smote算法进行采样,有效的解决了脏样本过滤和类别不平衡的问题,降低了模型过拟合的风险

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值