【python二级】红楼梦-CSDN博客

本文链接：https://blog.csdn.net/weixin_64399725/article/details/124972013

该博客介绍如何使用Python对《红楼梦》的文本进行处理，包括去除停用词、人物名称归一化以及统计出场次数不少于40次的人物。通过结巴分词对文本进行分词，排除停用词列表中的词语，对人物名称进行统一，最后按出场次数降序排列并保存到CSV文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目描述

文本文件“红楼梦. txt”中包含了《红楼梦》小说前20章内容，“ 停用词. txt”包含了需要排除的词语。请修改模板，实现以下功能。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

1.对“红楼梦. txt”中文本进行分词，并对人物名称进行归-化处理，仅归一化以下内容:‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

凤姐、凤姐儿、凤丫头归-为凤姐
宝玉、二爷、宝二爷归-为宝玉
黛玉、颦儿、林妹妹、黛玉道归-为黛玉
宝钗、宝丫头归一为宝钗
贾母、老祖宗归-为贾母
袭人、袭人道归一为袭人
贾政、贾政道归一为贾政
贾链、琏二爷归一为贾琏
2.不统计“停用词.txt"文件中包含词语的词频（名字必须大于一个字）。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

3.提取出场次数不少于40次的人物名称，将人物名称及其出场次教按照递减排序，保存到result.csv文件中，出场次数相同的.则按照人物名称的字符顺序排序。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

输出示例‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

宝玉,597
凤姐,296
一个,179
如今,132
黛玉,113
一面,112

import jieba

f = "红楼梦.txt"
sf = "停用词.txt"
fo=open(f,'r',encoding='utf-8')
txt=jieba.lcut(fo.read())
with</