通过上一篇requests库的介绍Python爬虫基础—requests库,了解了使用Python中的第三方库requests库来获取url页面中的信息,那么获取成功后便需要对网页信息进行解析,即筛选页面中我们需要的信息、数据并提取出来。而爬取页面的总流程可以描述为:获取页面—>解析页面,筛选和提取目标数据信息—>保存数据信息到本地。本文将对第二个环节——解析网页,筛选和提取目标数据信息简单介绍,这一步是需要在网页的源代码中完成,而实现这一功能主要有两种方法:一是利用第三方库BeautifulSoup库来处理;二是利用正则表达式来处理。
首先了解下解析网页,我们需要查看要爬取的网页的源代码,明确网页的整体架构,确定所要爬取的信息的存放位置,信息包含在什么标签中,为下一步的提取做好准备。其次是筛选和提取,在网页源代码中,你会发现有很多相同的标签,但是这些相同的标签包含的信息并不都是我们需要的,这个时候可以通过增加一些限定条件来筛选、提取信息,选择不同的方法来筛选和提取:比如BeautifulSoup库是通过相对路径来进行提取的,而正则表达式更多的是通过表达式规则来进行的。这部分是最重要的,它决定着你能否按照要求爬取想要的数据。最后是把数据保存到本地,后面再加以介绍,下面将介绍解析网页,筛选和提取目标信息数据的第一种方法——利用第三方库BeautifulSoup库来处理。
BeautifulSoup库可以用一句话理解为解析、遍历和维护标签树的功能库。它处理