python反爬虫

反爬虫类型

User-Agent识别
修改请求头信息里的User-Agent

请求头信息识别
referer,content-type , 请求方法(post,get)
构造响应的信息头信息

提取URL的时候,把URL所在页面的URL也存储起来,放到request.header中

异步加载
需要分析页面的网络请求,从中找出想要的数据相关的请求,并分析请求头信息、参数、cookie,然后根据这些信息构造请求。通常都是ajax请求,也有图片请求,如lazy load,通过js在页面加载后修改图片属性,有自定义属性存在,如src,可以找到一些ID或者链接,观察相关dom节点树上的特殊属性。

请求参数加密
通过一定的计算,构造哈希值,需要分析前端代码,找出具体计算的代码逻辑,并实现,如果前端代码经过混淆,代码量十分巨大,可以使用selenium splash 等js引擎。
但是如果爬取的数据需求量比较大,还是直接调用对方接口的形式获取数据。

请求结果加密

json数据里面加密
css加密

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python 爬虫指纹是一种用于识别和阻止爬虫程序的技术手段。由于爬虫程序通常会频繁地访问网站或者使用自动化方式进行数据抓取,对于一些网站来说,这可能会造成服务器负载过高、资源浪费以及对用户正常访问造成影响。 为了应对这种情况,网站常常会使用爬虫指纹技术来检测和阻止爬虫程序。Python 爬虫指纹主要通过以下几种方式来进行: 1. 用户代理检测:网站会检测爬取请求中的用户代理(User-Agent),如果该用户代理与常见的爬虫程序相匹配,就会判定为爬虫,并进行阻止。 2. IP 地址检测:网站会记录并分析用户请求的IP地址,如果同一个IP地址频繁地请求网页,就会判定为爬虫,并采取防御措施,如封禁该IP地址。 3. 访问频率检测:网站会统计同一个用户访问同一个页面的时间间隔,如果时间间隔过短,就会判定为爬虫,并采取相应的爬虫策略。 4. Cookie 检测:网站通过设置和检查 Cookie,来判断一个请求是否是爬虫程序生成的。如果 Cookie 的生成方式和用途与正常用户存在差异,就会判定为爬虫。 为了规避这些爬虫技术的检测,开发者可以通过设置合理的用户代理、合理延长请求时间间隔、处理 Cookie 等方式来尽量模拟正常用户的行为。此外,还可以使用一些第三方库或框架,如Scrapy等,提供更强大的爬虫功能和爬虫技术。需要注意的是,爬取网站数据时,应遵守相关的法律法规以及网站的规定,尊重网站的合法权益,避免给网站造成不必要的损失。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值