python3分析《全唐诗》词频

利用python3和jieba库分析全唐诗

#CalQuantangshiV1.py

import jieba
def getText():
    txt = open("quantangshi.txt", "r", encoding = "utf-8").read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~1234567890]】【':
        txt = txt.replace(ch, " ")
    return txt



words = jieba.lcut(getText())
counts = {}
for word in words:
    if len(word) ==1:
        continue
    else:
        counts[word] = counts.get(word,0) +1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

结果如下
白居易 2696
何处 1652
一作 1382
不知 1381
万里 1298
杜甫 1195
今日 1153
二首 1135
春风 1135
白云 1088
千里 1054
不可 989
李白 964
长安 927
不见 918

由此可见,全唐诗中作诗数量最多的前三名是白居易、杜甫和李白。春风、白云是诗人们最喜欢讴歌的对象,唐朝首都长安是诗人们最向往的地方。

©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页