Python 红楼梦的字频与词频统计
- 使用jieba分词工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词。
- 使用wordcloud生成词云。
- 其实除了停用词,程度词与否定词等也应该去除,但没有找到合适的词表。
字频:
字符 字频
了 13993
的 9862
不 9439
一 8160
道 7271
来 7189
人 6626
我 6204
是 6145
说 6108
这 5204
他 5193
你 5004
儿 4756
着 4105
去 4006
个 3983
也 3933
子 3896
玉 3877
有 3738
宝 3733
又 3677
们 3321
笑 3285
里 3084
贾 3005
只 2962
那 2932
见 2930
上 2594
好 2555
姐 2504
太 2466
家 2447
在 2401
就 2368
么 2363
便 2247
大 2219
头 2149
日 2113
听 2054
出 2051
得 2019
老 1994
下 1945
要 1866
都 1844
回 1800
知 1762
二 1755
两 1660
过 1635
还 1618
事 1580
自 1536
如 1536
话 1516
心 1502
小 1491
起 1483
看 1473
没 1448
因 1440
母 1425
凤 1407
忙 1400
之 1382
呢 1370
叫 1366
今 1353
面 1350
时 1344
些 1308
娘 1300
可 1292
等 1259
问 1242
奶 1195
什 1175
到 1165
才 1158
中 1135
吃 1123
和 1118
罢 1075
此 1034
打 1023
想 1008
夫 992
倒 989
正 950
别 949
给 937
黛 931
进 927
几 913
词频:
DataFrame就不贴在这了
前80回:
后40回:
# 如果您需要使用此代码,os.chdir路经需要指定到txt文本所在路径
# 使用Zipin函数,需要txt有read()函数可以打开的正确的