第0.5期-新手入门爬虫应该下载什么模块

最新推荐文章于 2024-09-05 23:05:20 发布

「已注销」

最新推荐文章于 2024-09-05 23:05:20 发布

阅读量410

点赞数

分类专栏： xiaspider2021 文章标签：爬虫 python

本文链接：https://blog.csdn.net/xiaspider/article/details/119964518

版权

本文介绍了Python爬虫新手入门时应下载的模块。推荐使用requests进行请求，若需执行JS则选择selenium。对于数据处理，推荐re、json、bs4和lxml，保存数据时建议使用json或mongodb。文中还解答了关于模块选择的常见问题，强调在2021年的反爬环境下，selenium可能成为更优选择。

摘要由CSDN通过智能技术生成

爬虫程序一般的流程：发送请求-处理数据-保存数据

1，发送数据

结论：使用requests，如果有必要的话，使用selenium

问题1：为什么不用urllib？

回答1：我不知道现在是否还有人会有这种疑问，也许这个问题放在几年前，例如2016年左右，还会有人纠结到底是使用urllib好，还是使用requests更好呢，甚至在那个时候，还会有人争论到底应该用python3呢，还是用python2呢？不过现在这些似乎已经不是一个问题了。毕竟很多2021年才开始接触python的初学者，甚至根本就没听说过什么python2。至于requests和urllib，很显然，requests更好用，虽然当初urllib的设计是非常了不起的，他们试图让每一个人，可以像操作本地文件那样，来使用爬虫获取互联网上的数据，但是事实上证明，最终没有受到欢迎。当然，我个人确实是很怀念urllib的，但是不可否认的是，现在用urllib越来越没有必要了。

问题2：selenium这么好用，为什么不总是使用selenium？

回答2：这一般是一个刚入门爬虫的人会纠结的问题。是的，对于很多刚学会使用爬虫的人来说，能够自动获取数据，比以前手工复制粘贴要快了百倍，因此使用selenium已经足够让其感到惊喜了。但是对于专业的爬虫人员来说，selenium的根本问题就在于，它太慢了，这种慢是无法接受的。因此，除非有必要，不应该使用selenium。当然如果你不是一个专业