python爬虫基本入门篇

最新推荐文章于 2024-09-14 17:35:17 发布

zhangxiaohe1996

最新推荐文章于 2024-09-14 17:35:17 发布

阅读量131

点赞数

文章标签： pyhton 爬虫入门反爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangxiaohe1996/article/details/90724315

版权

随着数据价值的提升，爬虫工程师这个职位也逐渐越来越受到重视，那么到底什么是爬虫，学习爬虫到底都要掌握哪些技术那，接下来让我给大家来简单的介绍下

什么是爬虫

简单来说就是程序模仿浏览器向服务器发送请求得到数据的过程

一、什么是反爬虫

服务器端利用一系列手段识别爬虫程序，让其无法进行数据获取

二、常见的反爬虫策略和应对策略

1.根据用户行为判断：
由于用户一般都是用浏览器进行访问，你手速再快也不能一秒访问几十次，所以服务器端可以对单位时间内某个IP访问服务器的次数来识别它是不是爬虫程序，如果检测到是爬虫程序，那就封掉其访问ip

应对策略：
可以降低其访问频率（说实话不够现实），或者可以购买代理IP，这样哪怕他封杀掉你一个ip，你还是继续进行爬取数据，不会耽误爬虫程序运行

2.对服务器端发送的请求头进行判断
由于客户端向服务端发送请求中包含请求头，请求头中有一些参数必须要传入，像cookies，user-agent这些参数都比较好解决，但是有些参数是经过加密进行传输的会提升爬虫难度

应对策略
这时候你就需要去找js源文件，进行js反向解析了，不过这个对新手不太友好，他需要你会一定的js语法

3.验证码
由于图形验证码难度不一，解决的方法也有所不同

应用策略
(1)tesseract orc 谷歌开源项目,上网看下安装教程有很多，但是它只能识别极其简单的验证码
(2)有些打码平台识别度还是很高的，自己上网搜搜看吧，我就不做广告了

(4)滑块验证
应用策略：
上网搜一下有很多，这个还是比较简单的，如果那里不明白可以给我留言，我可以帮大家看下

总结
其实如果以上的内容你都掌握了，那么恭喜你已经入门了，在后续的时间里我会为大家介绍一些爬虫在实际应用的总结内容，感谢您的耐心观看

zhangxiaohe1996

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。