比requests还好用的Python高效爬虫库，效率提升一倍！

最新推荐文章于 2024-09-24 10:32:54 发布

Python之栈

最新推荐文章于 2024-09-24 10:32:54 发布

阅读量1.1k

点赞数 11

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53707653/article/details/141454235

版权

今天来聊聊一个比requests还好用的Python高效爬虫库，httpx。

最近公司在搞Python后端项目重构，整个后端逻辑都变成了“异步”协程的方式实现。看着满屏的async和await，虎哥内心那叫一个崩溃。之前对协程有点了解，但这次是真正上手了，今天就把学习成果分享给大家。

什么是协程？

协程是一种比线程更轻量级的存在。简单来说，协程是用户空间内的“轻量级线程”，由程序员自己管理。和多线程相比，协程有几个显著的优势：

控制权在用户手中：线程的控制权在操作系统手中，而协程完全由用户控制，这减少了上下文切换的开销，提高了效率。
更轻量：线程需要分配较大的栈空间（通常是MB级别），而协程只需要几KB，因此可以在相同内存中运行更多的协程。
避免锁机制：因为协程是单线程的，不存在多线程的资源竞争问题，不需要加锁，避免了死锁和竞争状态，提高了执行效率。

协程特别适合用于I/O密集型任务，例如网络请求、文件读写等，但不适用于CPU密集型任务。因为协程的本质是单线程，在处理大量计算任务时，还是需要多进程或多线程来分担。

为什么选择httpx？

搞清楚了协程，咱们来看看今天的主角——httpx。httpx是一个支持异步HTTP请求的库，几乎继承了requests的所有特性，可以认为是requests的“升级版”。对于那些已经习惯了requests的开发者来说，httpx的上手几乎没有学习成本。

安装httpx非常简单，只需要在命令行中执行：

使用httpx进行异步请求

先来看看如何用httpx实现异步HTTP请求吧。

同步请求示例

先回顾一下同步请求的写法，这里用requests库来做个对比：

这段代码发送了200次同步HTTP请求，并记录了总耗时。运行结果可能如下：

可以看到，同步请求的总耗时约为16.6秒。

异步请求示例

现在，用httpx来实现相同的功能，但这次使用异步请求：

这段代码用httpx实现了异步HTTP请求。运行结果可能如下：

可以看到，异步请求的总耗时约为4.5秒，比同步请求缩短了近73%！

深入理解httpx

httpx不仅仅是requests的替代品，它还提供了一些额外的功能，使其在实际应用中更加强大和灵活。

1. 并发请求

使用httpx，我们可以轻松地实现并发请求，提高数据抓取效率。例如：

这段代码演示了如何使用httpx并发地抓取多个网页，并将结果存储在一个列表中。通过这种方式，可以显著提高爬虫的效率。

2. 异步上下文管理

httpx提供了异步上下文管理器，确保在异步操作中正确地管理资源。例如：

在这个示例中，async with语句确保在异步操作完成后正确关闭HTTP客户端。

3. 超时和重试机制

在网络请求中，超时和重试机制是非常重要的。httpx提供了灵活的超时和重试配置：

这里设置了一个5秒的超时时间，如果请求超过这个时间未完成，将抛出一个TimeoutException。

httpx在实际项目中的应用

虎哥最近在实际项目中使用httpx进行数据抓取，不得不说，效率真的提升了不少。尤其是在处理需要大量并发请求的场景时，httpx简直就是利器。

1. 数据抓取

在一个数据抓取项目中，需要抓取上千个页面的数据。使用httpx后，不仅代码简洁了很多，效率也提高了一倍以上。例如：

2. 接口测试

在接口测试中，httpx的异步特性也大有用武之地。例如，需要并发地测试多个API接口，可以使用以下代码：

结语

总的来说，httpx是一个非常强大且高效的HTTP请求库，尤其适合在需要大量并发请求的场景下使用。

如果你还在使用requests，不妨尝试一下httpx，感受一下异步请求带来的效率提升。

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python之栈 CSDN认证博客专家 CSDN认证企业博客

码龄4年

229: 原创

5070: 周排名

5883: 总排名

21万+: 访问

: 等级

6056: 积分

2924: 粉丝

3687: 获赞

9: 评论

2502: 收藏

私信

关注

热门文章

最新评论

MoviePy，一个神奇的python库
稻米_rice: moviepy都在2020年停止维护了，好事好用bug一堆，剪辑速度超慢，改造使用GPU加速ffmpeg还是慢
Python爬虫实战案例之——MySql数据入库
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
分享三个Python打包利器：PyInstaller，cx_Freeze和py2exe
要快些变强啊: pyinstaller会爆仓，磁盘直接撑爆
用ChatGPT做数据分析与挖掘，爽！
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619339810。
Python VS Golng 谁更胜一筹？
征途黯然.: I knew nothing about PythonVSGolng谁更胜一筹 before, but after reading this article, I have a deeper understanding.

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。