作为即将毕业的大四人员写这类博客用于总结积累面试问题技巧,当然了这些资料来源于网络,收集起来用于自己学习和提醒
1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎么解决的?
-
通过headers反爬虫:解决策略,伪造headers
-
基于用户行为反爬虫:动态变化去爬取数据,模拟普通用户的行为
-
通过动态更改代理ip来反爬虫
-
基于动态页面的反爬虫:跟踪服务器发送的ajax请求,模拟ajax请求,selnium 和phtamjs
2. 为什么 requests 请求需要带上 header?
原因是:模拟浏览器,欺骗服务器,获取和浏览器一致的内容
header 的形式:字典
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64