Python爬取南京地铁微博发布客流数据并进行分析
之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁微博看了一下,果然跟北京地铁一样,基本上每天都会更新客流数据。所以开始动手~
爬南京地铁微博,获取有用的数据并保存成txt文件
首先,百度搜一下Python爬新浪微博内容的框架,有很多很多,我们选择一个,随便改改,发现可以用啦:
南京地铁微博ID:2638276292
根据下面的条件进行初步的筛选,基本上可以找到对应的微博。
weibocontentindex=str(text).find("南京地铁")
weibocontentindex2=str(text).find("客运")
if weibocontentindex > -1 and weibocontentindex2 > -1:
fh.write(text[weibocontentindex-1:]+'\n')
然后我们就初步保存了南京地铁微博中发布的客流数据。
读取txt文件,整理好数据后存入sqlite3数据库
因为微博是工作人员发布的,存在一些文本格式上的问题,还有表述上的区别,所以首先处理这些异常。这里面有很