数据挖掘 文本分类 (八)训练和测试

本文介绍了如何利用chi值或TF-IDF值,结合libsvm工具进行文本分类的训练和测试。首先,对数据进行标准化处理,形成特征向量。接着,选取每类文本的一部分作为训练样本,构建数据字典。通过svm-train.exe进行训练并生成模型,然后处理测试集生成test.txt,最后使用svm-predict进行预测,得出分类准确率。
摘要由CSDN通过智能技术生成

         今天来个大结局吧,我们有了chi值或者TF-IDF值以后,就可以拿他们用lib-svm工具进行训练了。

         当然我们还要对数据进行一些标准化处理,我们需要将某词与该词对应的值作为一个向量处理,这个就是特征向量了。

         举个例子,我们得到的某个文本里有一个这样的值:汽车   3456.2314    。

         其实这就是一个二维的特征向量,我们可以把文字编号比如“汽车”记为1,那么这个向量就是 1:3456.2314 。

         如果再加上该文本属于某一类这个维度,假设汽车这个词是第一类,向量就变成三维的了:1 1:3456.2341 。

         之所以表示成这样的形式,是lib-svm工具接口接受的数据形式。

         我们每一类文章计算完特征值的时候,还是分在1000篇左右的文本里的,我们需要取出来一部分来代表这类文本,可以每篇取2000个,1000个,甚至500或者300个,这个取决于文本的大小等各种因素。

         这样我们把每一类的前300(假设每个文本取300个)个特征值最大的词取出来放到一个文本里,去重,大概剩2000多个词,这个就叫数据字典了。

         比如第一类文本可能是这样:1   1:3456.2341

                                                             1   2:3234.2211

                                                             1   3࿱

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值