LDA中文文本挖掘代码分享

最新推荐文章于 2023-08-04 23:42:06 发布

zxcvbygll

最新推荐文章于 2023-08-04 23:42:06 发布

阅读量2.7k

点赞数 2

文章标签：自然语言处理 python 数据挖掘

本文链接：https://blog.csdn.net/zxcvbygll/article/details/121928978

版权

原代码并非我原创，但我在自己的电脑上不断报错，所以加以修改补充后分享给大家，自己运行中需要注意的问题：

1、文本数据保存的时候记得要选择utf-8否则会报错

2、中文停词表自己去网上找就OK啦，网上有很多

3、可以选择读单个文件or文件夹的所有文件，默认的是单个文件，如果要用所有文件，把注释那部分删掉#就可以了

# 文件夹文件读取
#print('读取文件并获取内容...')
#all_content = []  # 总列表，用于存储所有文件的文本内容
#for root, dirs, files in os.walk('../清洗过'):  # 分别读取遍历目录下的根目录、子目录和文件列表
#   for file in files:  # 读取每个文件
#        file_name = os.path.join(root, file)  # 将目录路径与文件名合并为带有完整路径的文件名
#        with open(file_name, encoding='utf-8') as f:  # 以只读方式打开文件
#            data = f.read()  # 读取文件内容
#            words = jieba.cut(data)
#        all_content.extend(words)  # 从文件内容中获取文本并将结果追加到总列表


# 读取单个文件
with open('/Users/Desktop/上课/文献/LDA/标题.txt', encoding='utf-8') as f:  
# 打开新的文本，记得改成你文件的路径
     data = f.read()  # 读取文本数据
text = data
words = jieba.cut(text)
jieba.suggest_freq('液压支架', True)

最低0.47元/天解锁文章

zxcvbygll

关注

2
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
LDA中文文本挖掘代码分享

原代码并非我原创，但我在自己的电脑上不断报错，所以加以修改补充后分享给大家，自己运行中需要注意的问题：1、文本数据保存的时候记得要选择utf-8否则会报错2、中文停词表自己去网上找就OK啦，网上有很多3、可以选择读单个文件or文件夹的所有文件，默认的是单个文件，如果要用所有文件，把注释那部分删掉#就可以了# 文件夹文件读取#print('读取文件并获取内容...')#all_content = [] # 总列表，用于存储所有文件的文本内容#for root, dirs, files
复制链接

扫一扫