指定wb用户在指定日期范围内的wb内容抓取

一、操作步骤

只记录过程,不讲述原理

1.获取用户ID和cookie

用户ID在进入个人主页时导航栏中就会有显示,例如下面这样:
在这里插入图片描述
cookie获取(有的代码无需cookie也能运行):
微博登陆后,进入个人主页,打开开发者工具,点击network和Fetch/XHR:
在这里插入图片描述

可以尝试点击“weibo”
在这里插入图片描述此时可以看到出现myblog开头数据包:
在这里插入图片描述
点击该数据包,点击"Headers",下翻,可以看到其“Header Request”中就有cookie,复制即可:
在这里插入图片描述

2.程序下载(也就是二、中的项目)

(1)下载git,然后在希望安装爬虫项目的文件目录下打开git bash(或克隆项目时指定文件位置),输入以下命令:

git clone https://github.com/dataabc/weibo-crawler.git

3.程序运行

(1)首先对config文件中的参数进行修改,改成自己需要的,包括ID,cookie,是否下载图片等,具体参数作者在README中写得很清楚。
(2)安装依赖,可能会有版本冲突报错,按提示该升级升级就行:

pip install -r requirements.txt

(3)运行就直接在git bash中输入:

python weibo.py

(4)时间可能较长,运行完毕后出现weibo文件夹,数据都存在里面

二、完整代码网址

https://github.com/dataabc/weibo-crawler

参考并感谢:

https://www.cnblogs.com/wangzheming35/
@misc{weibospider2020,
author = {Lei Chen, Zhengyang Song, schaepher, minami9, bluerthanever, MKSP2015, moqimoqidea, windlively, eggachecat, mtuwei, codermino, duangan1},
title = {{Weibo Spider}},
howpublished = {\url{https://github.com/dataabc/weiboSpider}},
year = {2020}
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值