遇到http2.0的情况时,爬虫该怎么做

当遇到网站改版采用http2.0时,传统爬虫如requests和scrapy可能无法正常工作。本文通过一个实例介绍如何使用httpx库来处理http2.0请求,包括使用charles抓包、设置httpx的http2.0支持、添加代理和处理SSL认证,从而成功进行爬虫抓取。
摘要由CSDN通过智能技术生成

分享一个之前做做过的项目,一个美国的外卖平台Doordash.

前期开发很顺利,程序正常跑了4个月左右 ,突然间网站改版,之前的接口位置并未改动,改版后还在那个原位置没有动,可是,一直请求不到,找了好长时间,才发现是http2.0的……

话不多说,肝着!

1.先看进入页面,通过charles 抓包工具进行抓包

2.观察charles抓到包的信息

3.发现抓到的包里 http请求是2.0的 http2.0对爬虫很不友好,因为requests不支持http2.0的请求,scrapy框架只是支持最基础的http2.0的请求, 那么就该导入我们今天的主角了,httpx!httpx支持http2.0的请求

 4.使用httpx

httpx添加代理(httpx.Client)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值