常见的反爬手段

最新推荐文章于 2023-10-11 10:07:59 发布

在下平兄

最新推荐文章于 2023-10-11 10:07:59 发布

阅读量463

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44494778/article/details/94735994

版权

本文详细介绍了常见的反爬手段，包括通过headers、cookie、js、验证码、ip地址以及自定义字体和css来反爬。核心思路是尽可能模拟浏览器行为，如使用User-Agent池、处理referer字段、管理cookie、分析js、识别验证码以及处理隐藏信息。

摘要由CSDN通过智能技术生成

目标

了解常用的反爬手段和解决思路

1.明确反反爬的主要思路

反反爬的主要思路就是：尽可能地去模拟浏览器，浏览器咋如何操作，代码中就如何去实现。浏览器先请求了地址url1，保留了cookie在本地，之后请求url2带上了之前的cookie，代码中也可以这样去实现。
很多时候，爬虫中携带 headers 字段， cookie字段， url参数，post的参数很多，不清楚那些有用那些没用的情况下，只能够去尝试，因为每个网站都是不同的。下面有一些思路。

2.通过headers字段来反爬

2.1 通过headers中的User-Agent字段来反爬

只需要在请求的headers中添加User-Agent即可，更好的方式是使用User-Agent池来解决，我们可以考虑随机生成User-Agent
在这里插入图片描述

2.2 通过referer字段或者其他字段来反爬

例如在豆瓣电影中，需要通过referer字段来反爬，添加上就行了

2.3 通过cookie来反爬

如果目标网站不需要登陆每次请求带上前一次返回的cookie，比如requests模块的session
如果目标网站需要登陆准备多个账号，

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
常见的反爬手段

目标了解常用的反爬手段和解决思路1.明确反反爬的主要思路反反爬的主要思路就是：尽可能地去模拟浏览器，浏览器咋如何操作，代码中就如何去实现。浏览器先请求了地址url1，保留了cookie在本地，之后请求url2带上了之前的cookie，代码中也可以这样去实现。很多时候，爬虫中携带 headers 字段， cookie字段， url参数，post的参数很多，不清楚那些有用那些没用的情况下，...
复制链接

扫一扫

专栏目录

在下平兄 CSDN认证博客专家 CSDN认证企业博客

码龄6年

85: 原创

30万+: 周排名

188万+: 总排名

3万+: 访问

: 等级

1044: 积分

136: 粉丝

27: 获赞

5: 评论

73: 收藏

私信

关注

热门文章

分类专栏

PHP 21篇
mysql 5篇
python 13篇
web服务器框架
爬虫 11篇
多线程 2篇
多进程
协程
Scrapy框架 11篇
HTML 1篇
css 9篇
JS 8篇

最新评论

scrapy框架—spiders—获取下一页url
先生の一言: 倒数第五行最后的next_url要转换str(next_url)
selenium测试工具实现爬虫
甜甜圈字: 大佬，可以转载吗？
PHP内建函数
junib2000: 还有好多吧？常用的是哪些呢？
scrapy框架爬虫详细分析历程-腾讯招聘
hi_1900: 大神，请收下我的双膝，解析的很详细，跟我今天下午遇到的问题一摸一样，我只看了elements忘了查看源代码，代码写完不会出结果,然后才回过头来检查网页源代码，这才发现问题，谢谢大神的详解，能不能导出分享个md文件，想保存一下大神的详解~

大家在看

Linux：基础IO

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。