今天来个大结局吧,我们有了chi值或者TF-IDF值以后,就可以拿他们用lib-svm工具进行训练了。
当然我们还要对数据进行一些标准化处理,我们需要将某词与该词对应的值作为一个向量处理,这个就是特征向量了。
举个例子,我们得到的某个文本里有一个这样的值:汽车 3456.2314 。
其实这就是一个二维的特征向量,我们可以把文字编号比如“汽车”记为1,那么这个向量就是 1:3456.2314 。
如果再加上该文本属于某一类这个维度,假设汽车这个词是第一类,向量就变成三维的了:1 1:3456.2341 。
之所以表示成这样的形式,是lib-svm工具接口接受的数据形式。
我们每一类文章计算完特征值的时候,还是分在1000篇左右的文本里的,我们需要取出来一部分来代表这类文本,可以每篇取2000个,1000个,甚至500或者300个,这个取决于文本的大小等各种因素。
这样我们把每一类的前300(假设每个文本取300个)个特征值最大的词取出来放到一个文本里,去重,大概剩2000多个词,这个就叫数据字典了。
比如第一类文本可能是这样:1 1:3456.2341
1 2:3234.2211
1 3