LDA中文文本挖掘代码分享

原代码并非我原创,但我在自己的电脑上不断报错,所以加以修改补充后分享给大家,自己运行中需要注意的问题:

1、文本数据保存的时候记得要选择utf-8否则会报错

2、中文停词表自己去网上找就OK啦,网上有很多

3、可以选择读单个文件or文件夹的所有文件,默认的是单个文件,如果要用所有文件,把注释那部分删掉#就可以了

# 文件夹文件读取
#print('读取文件并获取内容...')
#all_content = []  # 总列表,用于存储所有文件的文本内容
#for root, dirs, files in os.walk('../清洗过'):  # 分别读取遍历目录下的根目录、子目录和文件列表
#   for file in files:  # 读取每个文件
#        file_name = os.path.join(root, file)  # 将目录路径与文件名合并为带有完整路径的文件名
#        with open(file_name, encoding='utf-8') as f:  # 以只读方式打开文件
#            data = f.read()  # 读取文件内容
#            words = jieba.cut(data)
#        all_content.extend(words)  # 从文件内容中获取文本并将结果追加到总列表


# 读取单个文件
with open('/Users/Desktop/上课/文献/LDA/标题.txt', encoding='utf-8') as f:  
# 打开新的文本,记得改成你文件的路径
     data = f.read()  # 读取文本数据
text = data
words = jieba.cut(text)
jieba.suggest_freq('液压支架', True)
  • 2
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值