python3分析《全唐诗》词频

利用python3和jieba库分析全唐诗

#CalQuantangshiV1.py

import jieba
def getText():
    txt = open("quantangshi.txt", "r", encoding = "utf-8").read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~1234567890]】【':
        txt = txt.replace(ch, " ")
    return txt



words = jieba.lcut(getText())
counts = {}
for word in words:
    if len(word) ==1:
        continue
    else:
        counts[word] = counts.get(word,0) +1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

结果如下
白居易 2696
何处 1652
一作 1382
不知 1381
万里 1298
杜甫 1195
今日 1153
二首 1135
春风 1135
白云 1088
千里 1054
不可 989
李白 964
长安 927
不见 918

由此可见,全唐诗中作诗数量最多的前三名是白居易、杜甫和李白。春风、白云是诗人们最喜欢讴歌的对象,唐朝首都长安是诗人们最向往的地方。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值