代理操作

本文介绍了代理服务器在爬虫中的作用,防止因高频请求被封禁IP。代理分为透明、匿名和高匿名三类,通常提供HTTP和HTTPS支持。在实际使用中遇到的连接错误可能是由于SSL证书或连接数限制,通过调整headers和增加重试机制可解决问题。同时讨论了stream参数对处理大文件请求的影响。
摘要由CSDN通过智能技术生成

代理

在爬虫中,代理指的是代理服务器,其作用是用来转发请求和响应。

爬虫在短时间内对服务器发起了高频请求,服务器监测到异常的行为请求后悔会将该请求对应设备的ip封禁,使本机设备无法对服务器端再次进行请求。此时就需要使用代理服务器进行请求转发,使用代理后,服务器端接收到请求对应的ip地址就是代理服务器。

代理服务器可选择性强,搜索关键词找到适用款。

代理服务器的匿名度

  • 透明代理

    • 使用后,服务器端可知本机真实ip以及使用了代理机制
  • 匿名代理

    • 使用后,服务器端可知本机使用代理,不知真实ip
  • 高匿代理

    • 使用后,服务器端不知本机使用代理,不知真实ip

(滑稽).jpg :网络不是法外之地,万一能查到也说不定

代理类型

  • https/http

@品易云HTTP 博主文中所述:现在市面上有很多代理IP软件、爬虫代理,都提供HTTP、HTTPS、SOCKS5三种模式。
版权声明:本文为CSDN博主「品易云HTTP」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/zn879762959/article/details/113846678

示例:快速爬取快代理上的ip

#模拟代理操作
import requests
from bs4 import BeautifulSoup
from lxml import etree
import random 

headers = {
   
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36',
    #被ip封掉后尝试,表明当前正在使用的tcp链接在请求处理完毕后会被断掉
    'Connection'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值