文章分三个个部分
- 两个爬虫库requests和selenium如何使用
- html解析库BeautifulSoup如何使用
- 动态加载的网页数据用requests怎么抓
两个爬虫库
requests
假设windows下安装好了python和pip。
下面用pip安装爬虫库requests
如果提示pip版本低,不建议升级,升级后可能python本身版本低,导致pip指令报错。
进入Python命令行验证requests库是否能够使用
看到import requests和requests.get函数都没有报错,说明安装成功可以开发我们的第一个爬虫程序了!
将代码文件命名为test.py,用IDEL打开。
最简单的爬虫就这么几行!
- 引入requests库,
- 用get函数访问对应地址,
- 判定是否抓取成功的状态,r.text打印出抓取的数据。
然后菜单栏点击Run->Run Module 会弹出Python的命令行窗口,并且返回结果。我们访问的是腾讯发布新冠肺炎疫情的地址
如果没有IDEL,直接cmd命令行运行按照下面执行
selenium
selenium库会启动浏览器,用浏览器访问地址获取数据。下面我们演示用selenium抓取网页,并解析爬取的html数据中的信息。先安装selenium
接下来安装解析html需要的bs4和lxml。
安装bs4
安装lxml
要确保windows环境变量path的目录下有chromedriver
我d盘的instantclient_12_2已经加到path里了。所以chromedriver解压到这个目录。chromedriver不同的版本对应Chrome浏览器的不同版本,开始我下载的chromedriver对应Chrome浏览器的版本是71-75(图中最下面的),我的浏览器版本是80所以重新下载了一个才好使。
代码如下
Python执行过程中会弹出
浏览器也自动启动,访问目标地址
IDEL打印结果如下
HTML解析库BeautifulSoup
selenium例子中爬取数据后使用BeautifulSoup库对html进行解析,提取了感兴趣的部分。如果不解析,抓取的就是一整个html数据,有时也是xml数据,xml数据对标签的解析和html是一样的道理,两者都是来区分数据的。这种格式的数据结构一个页面一个样子,解析起来很麻烦。BeautifulSoup提供了强大的解析功能,可以帮助我们省去不少麻烦。
使用之前安装BeautifulSoup和lxml。
首先代码要引入这个库(参考上面selenium库代码)
from bs4 import BeautifulSoup
然后,抓取
r = request.get(url)
r.encoding='utf8'
html=r.read() #urlopen获取的内容都在html中
mysoup=BeautifulSoup(html, 'lxml') #html的信息都在mysoup中了
假设我们对html中的如下部分数据感兴趣