目标
- 了解常用的反爬手段和解决思路
1.明确反反爬的主要思路
反反爬的主要思路就是:尽可能地去模拟浏览器,浏览器咋如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求url2带上了之前的cookie,代码中也可以这样去实现。
很多时候,爬虫中携带 headers 字段, cookie字段, url参数,post的参数很多,不清楚那些有用那些没用的情况下,只能够去尝试,因为每个网站都是不同的。下面有一些思路。
2.通过headers字段来反爬
2.1 通过headers中的User-Agent字段来反爬
只需要在请求的headers中添加User-Agent即可,更好的方式是使用User-Agent池来解决,我们可以考虑随机生成User-Agent
2.2 通过referer字段或者其他字段来反爬
例如在豆瓣电影中,需要通过referer字段来反爬,添加上就行了