微博位置爬虫发布

最新推荐文章于 2024-04-06 18:49:56 发布

月小水长

最新推荐文章于 2024-04-06 18:49:56 发布

阅读量2.5k

点赞数 4

分类专栏：微博爬虫 Python3 爬虫文章标签：爬虫 python 数据库

本文链接：https://blog.csdn.net/ygdxt/article/details/120344192

版权

Python3 爬虫同时被 2 个专栏收录

25 篇文章

订阅专栏

微博爬虫

8 篇文章

订阅专栏

微博数据分析经常需要和地理位置相关联，比如查看某一话题下发博人员地理分布，或者用户爬虫下某人轨迹分布，等等；而这次的微博位置爬虫则是直接以位置为切入点爬取微博，只需要输入一个地名，就能抓取在该地点发过的微博具体信息，表结构类似话题爬虫。

这个位置爬虫的结果可以和用户信息爬虫联动，比如有这样一个分析任务：去北京环球影城的人，都发了什么微博，男生多还是女生多，年龄群体分布怎么样，等等。都可以先用这个微博位置爬虫，爬完后的 csv 交给用户信息爬虫处理即可。

在这里插入图片描述

闲话不多说，首先在公众号 月小水长 后台回复 微博位置爬虫 获取 pyd 文件（only for python3.6 64 bit)，然后在新建一个 py 文件，引用这个 pyd 文件即可

from WeiboLocationSpider import WeiboLocationSpider

if __name__ == '__main__':
    WeiboLocationSpider(location_title='北京环球影城',
                        cookie='改成你自己的 cookie',
                        save_image=False)

首先是三个参数介绍，字面意思，第一个就是你要爬的地名，必选；

cookie 也是必选，如果不想在参数这指定，也可以新建个 cookie.json 文件，里面是如下形式

在这里插入图片描述

怎么获取这个 cookie 呢，打开下面这个网址(随便一个位置聚合页面都可) Chrome F12 Network Header 即可

https://weibo.com/p/100101B2094654D36EA5FF459E

第三个非必选，意思是保存爬取到的微博的图片，并且是微博原图，清晰度比较高，所以下载比较慢，所以为了快速抓取，默认值为 False，不保存，想要保存的话指定为 True 即可；河南暴雨超话时，很多信息是通过图片发布的，所以图片信息也很重要，可以通过 OCR 技术提取出文本，尝试了下，由于该微博保存的图片是原图，图片里面的文本信息几乎都能解析出来。

如果 save_image 设置为 True，图片保存如下：

在这里插入图片描述