接上一篇博客,这次我们该统计词频了。
至于为什么要统计词频,就不用说了吧,一个词在某类文本里出现的次数越多,越能代表这一类文本。当然如果某个词在这一类文本里出现次数很多而在其他类文本里根本不出现,就更能代表这一类文本了(这个我们下一篇博文再说)。
不过统计词频好像也没什么可说的,尤其是不涉及多个文本类的时候,只要读进来判断下,然后有一个标记位适当的自加一即可。
直接上代码(还是那句话,菜鸟写的,很烂也不一定对,有好的建议欢迎留言哈):
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import sys
import re
if __name__ == "__main__":
dic={}
for i in open('/Users/yangshaoby/Desktop/10.txt', 'rb'):
array=[]
i=i.strip()
array=i.split()
for j in array:
if (j in dic):
dic[j]+=1
else:
dic[j]=1
dic=sorted(dic.items(), key=lambda d:d[1],reverse=1)
for a,b in dic:
if b>0:
c = open('/Users/yangshaoby/Desktop/100.txt' , 'a')
c.write(a+'\0'+str(b)+'\n')
c.close()