数据抓取以及简单清洗
网页抓取思路
案例
key | value | 说明 |
---|---|---|
page | 1 | 页数 |
limit | 10 | 页的数据多少限制 |
- 分析一下原因,可能是请求头没有加,加入最常见的
User-Agent
和referer
后,还是出现了如下错误
- 后来推测可能原因在
Cookies
那里,毕竟他没有请求参数或者其他的请求意向,极大可能在Cookies
已经存储了验证信息了,打开Cookies`存储单元,里面有很多数据,但是还不能判定哪个是验证信息.
- 于是我在响应头里找到了一个可疑数据
session
,他是唯一一个在请求头和响应头里面同时存在的,所以我清空该值试试响应结果,果然是500状态码,确定了该请求数据的验证信息来自于session
.
- 解决方法:直接在请求头添加
Cookies
就可以解决问题
- 解决代码:
self.headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
'cookie': 'session=eyJfcGVybWFuZW50Ijp0cnVlLCJwYXRoIjoiL2dhb25pIn0.EMK4Jw.SVpjwvOHNYGzsnNj72LceRTBVa4',
'referer': 'https://www.attackmen.com/gaoni'
}
抓取成果实例
代理IP样品