基于KMeans的微博聚类

laufing

已于 2022-02-10 22:50:08 修改

阅读量1.7k

点赞数

分类专栏：人工智能文章标签：机器学习

于 2021-02-20 15:20:16 首次发布

本文链接：https://blog.csdn.net/weixin_45228198/article/details/113883235

版权

人工智能专栏收录该内容

6 篇文章 0 订阅

订阅专栏

sklearn库实现

数据集
特征抽取
聚类
找出每簇的中心思想

数据集

部分数据如下：微博id + 内容
3794120055174366 #九阳有礼无需多滤#九阳免滤豆浆机C668SG耀世首发！智能预约免过滤，贴心配置强到飞起，让你再续温柔一小时！好豆浆，九阳造！经常在苏宁买东西，正品又实惠.相信苏宁！支持苏宁！@俏宝贝筱筱 @可妞儿的小妈咪 @爱情砖家V小K
3794120118102891 #九阳有礼无需多滤#[新年快乐]九阳免滤豆浆机C668SG耀世首发！智能预约免过滤，贴心配置强到飞起，让你再续温柔一小时！[加油啊]@想做二奶 @豆浆需要油条我需要你o @不想要你满嘴的谎言o
3794120209918455 #九阳有礼无需多滤#九阳免滤豆浆机C668SG耀世首发！智能预约免过滤，贴心配置强到飞起，让你再续温柔一小时！好豆浆，九阳造！经常在苏宁买东西，正品又实惠.相信苏宁！支持苏宁！@爱仔妈咪 @张祥890613 @张夫人1129
3794120248499886 九阳免滤豆浆机C668SG耀世首发，生活也免滤了，活动太给力了，@桐桐宝宝爱妈咪 @专扣岩石 @我是逗逼小倪

链接：数据集及代码
提取码：lk6a

特征抽取

def load_data():
    """
        加载微博文章
        return  id_:所有微博id列表
                topics:所有文章列表
    """
    f = open("train.txt","rb")
    
    topics = []
    id_ = []
    
    #每一行 为一篇文章
    #获取所有文章 和 id号
    while True:
        line = f.readline()
        
        if line:
            line = line.decode("utf-8")
        
            w_id,topic = line.split("\t")
            
            
            id_.append(w_id)
            topics.append(topic)
        else:
            break
    
    id_[0] = id_[0][1:]
    print(id_[:10])
    
    
    return id_,topics

def extract_features(topics):
    """
        文档向量化
        return X:2dim array,特征集
    """
    vectorizer = TfidfVectorizer()
    sparse = vectorizer.fit_transform(topics)
    
    return sparse,vectorizer

聚类

	#加载数据
    id_, topics = load_data()
    
    #抽取特征
    X,vectorizer = extract_features(topics)
    
    #训练模型
    kmeans = KMeans(n_clusters=20,random_state=3)
    y_pred = kmeans.fit_predict(X)
    
    #评估模型
    from sklearn.metrics import silhouette_score
    
    score = silhouette_score(X,y_pred)
    
    print("轮廓系数:",score)

找出每簇的中心思想

TFIDF 值越大，越能代表中心思想

laufing

关注

0
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
2
评论
基于KMeans的微博聚类

sklearn库实现数据集特征抽取聚类找出每簇的中心思想数据集部分数据如下：微博id + 内容3794120055174366 #九阳有礼无需多滤#九阳免滤豆浆机C668SG耀世首发！智能预约免过滤，贴心配置强到飞起，让你再续温柔一小时！好豆浆，九阳造！经常在苏宁买东西，正品又实惠.相信苏宁！支持苏宁！@俏宝贝筱筱 @可妞儿的小妈咪 @爱情砖家V小K3794120118102891 #九阳有礼无需多滤#[新年快乐]九阳免滤豆浆机C668SG耀世首发！智能预约免过滤，贴心配置强到飞起，让你再续温柔
复制链接

扫一扫