基于社交网络的情绪化分析III
By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。
前面进行了微博数据的抓取,简单的处理,这一篇进行学校微博的相似度分析。
微博相似度分析
这里试图计算任意两个学校之间的微博用词的相似度。
思路:首先对学校微博进行分词,遍历获取每个学校的高频用词词典,组建用词基向量,使用该基向量构建每个学校的用词向量,最后使用TF-IDF算法和余弦函数计算两个学校微博之间的相似度。
获取学校用词词典
按学校划分,每个学校微博先进行分词,遍历获取每个学校的用词词典worddict,将worddict以pickle方式保存在本地。
伪码如下:
word_results = 获取分词后学校微博
# 两重循环获取所有的单词,存储到worddict词典中
for r in word_results:
for w in r[0].split():
if wordd