Python爬虫的整体流程

对于爬虫小白来说,很多人都感觉不知道怎么开始学习。从网上查来查去,找到的多是部分的代码,但很少有从整体上阐述爬虫的流程的,因此导致了很多人对于爬虫的难以理解和无从下手。接下来就介绍一下爬虫的整体流程。

爬虫整体上可以分为三个步骤:


第一步:获取网页

获取网页就是向一个网址发送request,然后网址返回网页的数据。

获取网页我们可以用selenium来模拟浏览器。


第二步:解析网页

解析网页,通俗的来讲就是要如何得到我们所需要的数据。我们在第一步获取网页所得到的是整个网页的数据,但是我们往往只是需要其中的一部分,因此我们需要提取我们所需要的数据。

提取数据我们可以使用正则表达式,但是相对有点复杂;也可以使用BeautifulSoup。


第三步:数据存储

数据存储,显而易见就是要把数据存储下来。在第二步我们已经把我们所需要的数据从整个网页中提取出来,但是我们要把我们所需要的这些数据放在哪里呢?

通常我们可以把数据存储在txt文本中,也可以存储在数据库中。如果存储在数据库中,可以考虑使用MongoDB这个强大的数据库。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值