最近项目不是特别忙,想做一些微博方面的分析和处理工作,如果自己现爬取微博数据,积累数据比较慢,恰好看到北理工张华平老师分享的500万条微博数据,直接借用他的数据分析。下载地址是:http://www.nlpir.org/?action-viewnews-itemid-299
因为解压之后的文件较大,足有2.1G,并且对格式不是很清楚,直接打开也无法打开,于是先用文件分割工具将真格文件分割成多个较小的文件,了解好数据格式后采用Python读取数据并插入到MySQL数据库中。微博数据存放于数据库主要考虑这些数据还可以做其他方面的分析研究。
读取数据库中微博来源字段
统计每一条微博来源,存放于Dict中,计算相同的数目
对字典中的内容根据value由高到低排序
最终的统计分析效果: