python网络爬虫--浏览器伪装

前段被迫创业

已于 2023-06-15 21:05:23 修改

阅读量2.9k

点赞数 1

分类专栏： Python爬虫文章标签： python 爬虫开发语言

于 2023-03-12 15:09:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63009369/article/details/129439606

版权

一.爬虫前言

在我们爬取一些网页的时候可能会失败，因为这写网站为了防止恶意爬虫的访问，会设置一些爬虫机制，常见的爬虫机有：

（1）通过分析用户请求的Headers信息进行反爬虫

（2）通过检测用户行为进行爬虫，比如通过判断同一个IP在短时间内是否频繁地访问一个网站

（3）通过动态页面增加爬虫的难度，达到反爬虫的目的

第一中反爬虫机制可以通过设置好用户的Headers信息还实现浏览器的伪装，第二种反爬虫的网站可以通过使用代理服务器并经常切换代理服务器的方式解决，第三种可以通过一些工具软件实现，这里我们主要介绍第一种

二.头信息的常见字段

但网络通过浏览器访问网站时，会向服务器发送一些Headers头信息，然后服务器根据用户的请求头信息生成一个网页内容，病将其返回给浏览器，所以服务器接受到这些头信息后可以根据头信息分析出该访问是不是爬虫

以下是Headers信息中常见的字段：

1.Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

Accept 字段主要表示浏览器能够支持的内容类型有哪些
text/html 表示HTML文档
application/xhtml+xml 表示XHTML文档
application/xml 表示XML文档
q 代表权重系数，指介于0~9之间

所以这一行字段信息表示浏览器可以支持text/htm

最低0.47元/天解锁文章

前段被迫创业

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
python网络爬虫--浏览器伪装

爬虫
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

前段被迫创业 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。