【爬虫策略】反爬策略

最新推荐文章于 2023-05-23 09:51:32 发布

AI study

最新推荐文章于 2023-05-23 09:51:32 发布

阅读量292

点赞数 1

分类专栏：网络爬虫文章标签：爬虫数据 Python 网络人工智能

本文链接：https://blog.csdn.net/weixin_43797885/article/details/103529443

版权

网络爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一.识别和防止pachong

想要进行反爬就得先识别pachong,识别pachong的措施.

方法一:频率限制

根据https日志或者流量进行分析,如果在单位时间内某个ip访问的频率超过了某个特定的阈值,我们就认为它是pachong

方法二:headers参数检测

在请求的数据包中我们检测user-agent或者referer参数,顺便看一下referer参数是不是来自主页,如果不是来自主页,那就很有可能是pachong.

方法三:添加隐藏信息

在网页源码中内置一个对浏览器不可见的链接,正常用户使用浏览器看不到该链接,当然也就不会去点击,如果检测到该链接被点击了,来访的ip可以认为是pachong.

方式四:设置验证码

我们设置几个验证关卡,滑块验证码,图片验证码,短信邮箱验证等

方法五:js脚本防止爬虫

也就是动态网页

小提示:嘿嘿嘿,如果不想被爬取,那就把你的网站不要写那么规范,写的越有规律,越容易被找到规律,也就越容易被pa

二.反反爬虫技术

逃离频率限制

针对上面方法一:
方法一:设置睡眠时间
简单粗暴的方式就是设置睡眠时间,如果你不知道睡眠时间该设置多少,你可以测试一下,因为这个每个网站都基本是不一样的.

方法二:设置代理
我们可以花点钱,买店高匿代理什么的,如果觉的不安全,我们可以使用Tor网络,不过很多网站对Tor网络是有限制的.如果不知道tor网络是什么,后面已经帮你举了一个很形象的例子,自己看吧.

设置请求头

针对上面方法二:
方法一:添加请求参数
我们可以将headers中的一些信息添加到我们爬虫的请求头中,对爬虫请求头进行更改.eg:user-agender,cookie,referce,content-type,content-encoding等,大家都知道百度可以说是国内最大的pachong,很多网站对百度这个大爬虫是开放的,我们可以将user-agent改成百度的服务器,
哈哈哈…这个大家可以尝试的练习一下,千万不要用在商业用途中啊,不然我派人抓你.

针对上面方法三

这个得看你够不够细心了.就看你能不能找到了.

验证码措施

针对上面方法四:

如果是图片验证码,我们可以使用图像识别,很简单使用opencv和一些简单的算法就搞定了,
如果是滑块验证码,那就使用selenium自动化工具和边缘检测的一些算法和工具实现,opencv中的算法,如果比较复杂,那就只能自己写算法实现,我们可以使用强大的卷积神经网络对图片进行边缘检测,找出缺口位置.
如果是短信或者邮箱验证:这个…那就等你登录之后使用你接收之后的cookie进行进行带参登录或者发送post请求登录吧.

获取动态页面

针对上面方法五

方式一:
在这里插入图片描述

方法二:使用抓包工具

三.Tor技术

举个很形象的例子:我们想送一份匿名的信,不是自己送,也不通过邮差送,而是大街上随便找一个人让他帮你送,这样收信人就很难找到你了.

真实原理:Tor网络由大量的志愿者贡献自己的PC/服务器运行洋葱路由协议的一个节点而组成.Tor客户端(洋葱浏览器)随机的从Tor网络中选取3台路由器形成一个私有网络路径传输加密的流量,每个节点路由器只知道数据送往的下一跳,不知道发送流量的来源.这样就保证了着三个节点没有谁知道完整的流量传输路径.也就是说,Tor网络形成的源地址和目标地址之间进行了隔断,从而无法截取流量进行源地址的追踪

AI study

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【爬虫策略】反爬策略

一.识别和防止pachong想要进行反爬就得先识别pachong,识别pachong的措施.方法一:频率限制根据https日志或者流量进行分析,如果在单位时间内某个ip访问的频率超过了某个特定的阈值,我们就认为它是pachong方法二:headers参数检测在请求的数据包中我们检测user-agent或者referer参数,顺便看一下referer参数是不是来自主页,如果不是来自主页,那...
复制链接

扫一扫