数据挖掘 文本分类(六)统计词频

        接上一篇博客,这次我们该统计词频了。

        至于为什么要统计词频,就不用说了吧,一个词在某类文本里出现的次数越多,越能代表这一类文本。当然如果某个词在这一类文本里出现次数很多而在其他类文本里根本不出现,就更能代表这一类文本了(这个我们下一篇博文再说)。

        不过统计词频好像也没什么可说的,尤其是不涉及多个文本类的时候,只要读进来判断下,然后有一个标记位适当的自加一即可。

       直接上代码(还是那句话,菜鸟写的,很烂也不一定对,有好的建议欢迎留言哈):

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import sys
import re
if __name__ == "__main__":
    dic={}
    for i in open('/Users/yangshaoby/Desktop/10.txt', 'rb'):
        array=[]
        i=i.strip()
        array=i.split()
        for j in array:
            if (j in dic):  
                dic[j]+=1  
            else:  
                dic[j]=1

    dic=sorted(dic.items(), key=lambda d:d[1],reverse=1)  
    for a,b in dic:  
        if b>0:
            c = open('/Users/yangshaoby/Desktop/100.txt' , 'a')   
            c.write(a+'\0'+str(b)+'\n')
            c.close()


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值