文本分类的基本步骤是什么,主要划分为几步?

1、获取训练文档集合。训练文档的好坏对分了结果至关重要。一般是公认的,经过人工分类的库。

2、建立文档表示模型。目前分类方法主要用词语(相对于字、短语)来表征文档。具体可能是关键词、主题词。

3、文档特征选择。在所有文档特征向量中,选取最优子集表示文档,减少特征向量计算量。

4、选择分类器。KNN,SVM是文本分类中常用的分类模型。当然,也可以选择bayes、回归模型等。

5、性能评估,参数调优。根据分类效果,调整参数,使分类效果更好。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
什么是文本挖掘?大数据该挖掘什么?
http://www.duozhishidai.com/article-13833-1.html
大数据时代,文本、语义和社交分析,未来市场将走向何方
http://www.duozhishidai.com/article-2467-1.html
基于深度神经网络,是怎么自动生成文本摘要的
http://www.duozhishidai.com/article-1306-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值