基于社交网络的情绪化分析III

基于社交网络的情绪化分析III

By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。

前面进行了微博数据的抓取,简单的处理,这一篇进行学校微博的相似度分析。


微博相似度分析

这里试图计算任意两个学校之间的微博用词的相似度。

思路:首先对学校微博进行分词,遍历获取每个学校的高频用词词典,组建用词基向量,使用该基向量构建每个学校的用词向量,最后使用TF-IDF算法和余弦函数计算两个学校微博之间的相似度。

注:TF-IDF算法余弦函数使用可以参照我前面记录的博客。余弦函数的计算使用了numpy模块。

获取学校用词词典

按学校划分,每个学校微博先进行分词,遍历获取每个学校的用词词典worddict,将worddict以pickle方式保存在本地。

伪码如下:

word_results = 获取分词后学校微博
# 两重循环获取所有的单词,存储到worddict词典中
for r in word_results:
    for w in r[0].split():
        if wordd
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值