四、(2) 文本层次聚类
层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。该方法的优点是可随时停止划分,主要步骤如下:
(1)移除网络中的所有边,得到有n个孤立节点的初始状态;
(2 )计算网络中每对节点的相似度;
(3)根据相似度从强到弱连接相应节点对,形成树状图;
( 4)根据实际需求横切树状图,获得社区结构
完整代码如下:
# -*- coding: utf-8 -*-
"""
Created on Fri May 17 12:55:42 2019
@author: sun
"""
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']
'''
1、加载语料