前言
新年一过,又要到以你那一度的“金三银四”求职高峰期。对于爬虫工程师来说,面试前做好充足准备,才能事半功倍。今天给小伙伴们分享5道Python爬虫面试提及回答。
问题1:你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的?
答:通过headers反爬虫:解决策略,伪造headers,基于用户行为反爬虫:动态变化去爬取数据,模拟普通用户的行为, 使用IP代理池爬取或者降低抓取频率,或 通过动态更改代理ip来反爬虫,基于动态页面的反爬虫:跟踪服务器发送的ajax请求,模拟ajax请求,selnium,和phtamjs。或 使用selenium + phantomjs 进行抓取抓取动态数据,或者找到动态数据加载的json页面。
验证码 :使用打码平台识别验证码
数据加密:对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。
**问题2:你写爬虫的时候 使用的什么框架 选择这个框架的原因是什么?
答:
优势