爬虫基本功就这？转行干爬虫吧

最新推荐文章于 2022-06-18 10:12:20 发布

xllntld

最新推荐文章于 2022-06-18 10:12:20 发布

阅读量275

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/xllntld/article/details/109905011

版权

文章分三个个部分

两个爬虫库requests和selenium如何使用
html解析库BeautifulSoup如何使用
动态加载的网页数据用requests怎么抓

两个爬虫库

requests

假设windows下安装好了python和pip。
下面用pip安装爬虫库requests

如果提示pip版本低，不建议升级，升级后可能python本身版本低，导致pip指令报错。

进入Python命令行验证requests库是否能够使用

看到import requests和requests.get函数都没有报错，说明安装成功可以开发我们的第一个爬虫程序了！
将代码文件命名为test.py，用IDEL打开。

最简单的爬虫就这么几行！

引入requests库，
用get函数访问对应地址，
判定是否抓取成功的状态，r.text打印出抓取的数据。

然后菜单栏点击Run->Run Module 会弹出Python的命令行窗口，并且返回结果。我们访问的是腾讯发布新冠肺炎疫情的地址

如果没有IDEL，直接cmd命令行运行按照下面执行

selenium

selenium库会启动浏览器，用浏览器访问地址获取数据。下面我们演示用selenium抓取网页，并解析爬取的html数据中的信息。先安装selenium

接下来安装解析html需要的bs4和lxml。
安装bs4

安装lxml

要确保windows环境变量path的目录下有chromedriver

我d盘的instantclient_12_2已经加到path里了。所以chromedriver解压到这个目录。chromedriver不同的版本对应Chrome浏览器的不同版本，开始我下载的chromedriver对应Chrome浏览器的版本是71-75（图中最下面的），我的浏览器版本是80所以重新下载了一个才好使。
代码如下

Python执行过程中会弹出

浏览器也自动启动，访问目标地址

IDEL打印结果如下

HTML解析库BeautifulSoup

selenium例子中爬取数据后使用BeautifulSoup库对html进行解析，提取了感兴趣的部分。如果不解析，抓取的就是一整个html数据，有时也是xml数据，xml数据对标签的解析和html是一样的道理，两者都是来区分数据的。这种格式的数据结构一个页面一个样子，解析起来很麻烦。BeautifulSoup提供了强大的解析功能，可以帮助我们省去不少麻烦。
使用之前安装BeautifulSoup和lxml。
首先代码要引入这个库（参考上面selenium库代码）

from bs4 import BeautifulSoup

然后，抓取

r = request.get(url)      
r.encoding='utf8'  
html=r.read() #urlopen获取的内容都在html中  
mysoup=BeautifulSoup(html, 'lxml') #html的信息都在mysoup中了

假设我们对html中的如下部分数据感兴趣

最低0.47元/天解锁文章

xllntld

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫基本功就这？转行干爬虫吧

文章分三个个部分两个爬虫库requests和selenium如何使用 html解析库BeautifulSoup如何使用动态加载的网页数据用requests怎么抓两个爬虫库requests假设windows下安装好了python和pip。下面用pip安装爬虫库requests如果提示pip版本低，不建议升级，升级后可能python本身版本低，导致pip指令报错。进入Python命令行验证requests库是否能够使用看到import requests和requests.g.
复制链接

扫一扫