之前写了一篇文本分类(五),不知道怎么滴没发表成功,csdn连个备份都没有,草稿箱里也没有,真是备受打击!
隔了几天,只好重来......
好,上一篇做到了分词这一步,然后就是取名词和去停用词了。
首先说取名词,一篇文本,里边有好多词是没有用的,尤其对于判断这篇文本是某一类文本的时候。比如形容词,副词,助词什么的,这类词对我们判断文本属于哪一类没有任何作用,只有名词是比较能够代表某一类文本的,所以我们要把名词给取出来,然后用这些个名词去作为某一类文本的特征。停用词也是这个道理,我们看下老师提供的停用词表就知道,停用词也全都是没用的废话。比如:
这个是老师给的停用词表,里边全是没有用的词,我们要把他们去掉。
第一步,取名词。这个当然要用正则表达式了,