读取txt文件，找到里面的高频英文词汇

最新推荐文章于 2023-03-24 10:35:53 发布

yu0395

最新推荐文章于 2023-03-24 10:35:53 发布

阅读量868

点赞数

分类专栏： python入门课

本文链接：https://blog.csdn.net/yu0395/article/details/113069031

版权

python入门课专栏收录该内容

28 篇文章 2 订阅

订阅专栏

#读取txt文件，找到里面的高频词汇
#1、首先打开文件.该函数生成的文件是字符串类型的.并将所有字符小写化，字符替换成空格
def opentxt():#name是文件名hamelet.txt
    txt=open("hamlet.txt","r").read()
    txt=txt.lower()
    for i in "'!#$%&()*+,-./:;<=>?@[\\]^_‘{|}~":#遍历字符串的功能
        txt=txt.replace(i,"")#类似于word中的替换
    lsword=txt.split()#单词返回列表
    dicword={}#建立字典，键是单词，键值是该单词出现的次数
    for i in lsword:
        dicword[i]=dicword.get(i,0)+1
    lsdcword=list(dicword.items())#字典是没法排序的，所以要把转化为元组组成的列表
    lsdcword.sort(key=lambda x:x[1],reverse=True)#对列表进行排序，但是列表里面是元组，所以可以用sort中的lambda，对元组中的第二列进行排序

    return lsdcword
ls=opentxt()
print(ls)
newdic={}
for i in range(10):
    print("单词{}的出现次数{}".format(ls[i][0], ls[i][1]))
    newdic[ls[i][0]]=ls[i][1]
print(newdic)

#将只有空格和字母的字符串，以空格为准分割成单词

#统计每个单词的数量，并排序