数据挖掘文本分类（六）统计词频

最新推荐文章于 2022-10-24 13:28:44 发布

Carry_yang

最新推荐文章于 2022-10-24 13:28:44 发布

阅读量3.8k

点赞数 1

分类专栏：大数据文本分类数据挖掘

本文链接：https://blog.csdn.net/yangshaoby/article/details/42101949

版权

大数据同时被 3 个专栏收录

9 篇文章 2 订阅

订阅专栏

文本分类

7 篇文章 0 订阅

订阅专栏

数据挖掘

7 篇文章 1 订阅

订阅专栏

接上一篇博客，这次我们该统计词频了。

至于为什么要统计词频，就不用说了吧，一个词在某类文本里出现的次数越多，越能代表这一类文本。当然如果某个词在这一类文本里出现次数很多而在其他类文本里根本不出现，就更能代表这一类文本了（这个我们下一篇博文再说）。

不过统计词频好像也没什么可说的，尤其是不涉及多个文本类的时候，只要读进来判断下，然后有一个标记位适当的自加一即可。

直接上代码（还是那句话，菜鸟写的，很烂也不一定对，有好的建议欢迎留言哈）：

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import sys
import re
if __name__ == "__main__":
    dic={}
    for i in open('/Users/yangshaoby/Desktop/10.txt', 'rb'):
        array=[]
        i=i.strip()
        array=i.split()
        for j in array:
            if (j in dic):  
                dic[j]+=1  
            else:  
                dic[j]=1

    dic=sorted(dic.items(), key=lambda d:d[1],reverse=1)  
    for a,b in dic:  
        if b>0:
            c = open('/Users/yangshaoby/Desktop/100.txt' , 'a')   
            c.write(a+'\0'+str(b)+'\n')
            c.close()