Python 红楼梦的字频与词频统计

本文利用Python的jieba分词工具分析《红楼梦》,去除停用词后,展示了字频和词频统计。通过wordcloud生成的词云进一步直观展示高频词汇。尽管程度词和否定词未被完全排除,但已揭示了作品中的常见字符和词语分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python 红楼梦的字频与词频统计

  • 使用jieba分词工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词。
  • 使用wordcloud生成词云。
  • 其实除了停用词,程度词与否定词等也应该去除,但没有找到合适的词表。

字频:

字符 字频

了 13993
的 9862
不 9439
一 8160
道 7271
来 7189
人 6626
我 6204
是 6145
说 6108
这 5204
他 5193
你 5004
儿 4756
着 4105
去 4006
个 3983
也 3933
子 3896
玉 3877
有 3738
宝 3733
又 3677
们 3321
笑 3285
里 3084
贾 3005
只 2962
那 2932
见 2930
上 2594
好 2555
姐 2504
太 2466
家 2447
在 2401
就 2368
么 2363
便 2247
大 2219
头 2149
日 2113
听 2054
出 2051
得 2019
老 1994
下 1945
要 1866
都 1844
回 1800
知 1762
二 1755
两 1660
过 1635
还 1618
事 1580
自 1536
如 1536
话 1516
心 1502
小 1491
起 1483
看 1473
没 1448
因 1440
母 1425
凤 1407
忙 1400
之 1382
呢 1370
叫 1366
今 1353
面 1350
时 1344
些 1308
娘 1300
可 1292
等 1259
问 1242
奶 1195
什 1175
到 1165
才 1158
中 1135
吃 1123
和 1118
罢 1075
此 1034
打 1023
想 1008
夫 992
倒 989
正 950
别 949
给 937
黛 931
进 927
几 913

词频:

DataFrame就不贴在这了

前80回:

后40回:

# 如果您需要使用此代码,os.chdir路经需要指定到txt文本所在路径
# 使用Zipin函数,需要txt有read()函数可以打开的正确的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值