使用python对微博评论进行分词、文本聚类

最新推荐文章于 2024-07-20 17:12:48 发布

暗夜苍茫_99

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量1.7w

点赞数 37

文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/weixin_43873702/article/details/111931428

版权

分词、文本聚类

前言
一、事前准备
二、分词、聚类
结语
参考

前言

爬取了微博博文和发文时间后，进行简单的文本分析。
总体思路：jieba分词、去停用词、K-means聚类、选出各类的主题词
（附上我前面写的爬取微博内容的方法：python+selenium 爬取微博（网页版）并解决账号密码登录、短信验证）
这里简单起见，选择了104条文本。每行是微博博文、发文时间。
在这里插入图片描述

一、事前准备

安装python3.7、pycharm。

代码我这里分开放，你只要把下面的代码都按顺序拼一起就是完整代码。
开始操作。首先导入包。

import jieba
import csv
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import nltk
from collections import Counter
# coding = gbk

把上面的复制到pycharm，如果哪行有下划线提示，就说明没有安装该包。
安装步骤：左上角–File–Settings–Prokect–Python Interpreter–右边的小加号–输入包名–install
在这里插入图片描述

二、分词、聚类

1.读取文本内容

文件路径大家不一定相同，要自己改一下。（下同）

lines=[]
csv_reader = csv.reader(open("分词/微博test.csv"))
for row in csv_reader:
    lines.append(row[0])

2.jieba分词

# 获取初步的分词结果
jiebaword = []
for line in lines:
    line = line.strip('\n')
    # 清除多余的空格
    line = "".join(line.split())
    # 默认精确模式
    seg_list = jieba.cut(line, cut_all=False)
    word = "/".join(seg_list)
    jiebaword.append(

最低0.47元/天解锁文章

暗夜苍茫_99

关注

37
点赞
踩
345

收藏

觉得还不错? 一键收藏
28
评论
使用python对微博评论进行分词、文本聚类

分词、文本聚类前言一、事前准备二、分词、聚类1.读取文本内容2.jieba分词3.去停用词4.生成tfidf矩阵5.K-means聚类6.得出各分类文本的主题前言爬取了微博博文和发文时间后，进行简单的文本分析。总体思路：jieba分词、去停用词、K-means聚类、选出各类的主题词（附上我前面写的爬取微博内容的方法：python+selenium 爬取微博（网页版）并解决账号密码登录、短信验证）这里简单起见，选择了104条文本。每行是微博博文、发文时间。一、事前准备python3.7、py
复制链接

扫一扫