python爬虫基本反爬

本文介绍了Python爬虫的基本反爬措施,包括设置User-Agent、添加休眠时间以模拟人为操作、处理大批量数据时避免IP被封,以及如何使用代理IP。设置User-Agent可以避免服务器识别为非浏览器请求,而休眠时间可以防止短时间内大量请求。当IP被封禁时,可以考虑使用代理IP来继续爬取。
摘要由CSDN通过智能技术生成

一 最基本的User-Agentyan验证

如果通过程序向目标网站发送请求且不设置任何请求参数,服务器得到请求会识别为非人为通过浏览器请求,这种情况下大可能会被浏览器拒绝请求。(请求状态码非200,服务器拒绝访问)

 设置请求头headers-UA参数:

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

基本的headersUA参数。

如果我们需要请求大批量的数次,使用同一个浏览器和同一个环境设备,User-Agent基本不会变的。一些网站服务器反爬手段敏感强度高,也会拒绝访问。

在python中可以使用一个第三方库获取UA数值:

进入终端输入: pip install faker.

安装完成后实例对象:

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值