很多读者在学习了 Python 之后都想做一些爬虫程序,去网上采集数据或完成一些自动化操作。因此,我们也制作了一套爬虫实战课程,目前正在最后的完善中,很快将和各位见面。
等不及的朋友,可以先来看看这个类似于 bs4 的网页分析模块——PyQuery。
如果说到 jQuery,熟悉前端的同学肯定不陌生,它可以简单优雅地对 html 文件进行定位、选择、移动等操作。而本文的主角 pyquery,支持以 jquery 的方式对 html 进行操作。因此非常适合有前端或 js 基础的同学使用。
废话不多说,一边看文章,一边打开编辑器,跟着我一探究竟吧。
1、安装
安装过程比较简单
pip install pyquery
2、入门使用
接下来,我们以分析简书首页文章为例,简单梳理 pyquery 的部分函数 。
2.1 导入相关的库
分别导入 网络请求库 - requests、以及 pyquery 。
import requests
import pyquery
2.2 向 pyquery 导入数据
本文的重点在于 pyquery,请求部分我就简单的一笔带过,大家知道使用 pyquery 有这么个流程就行了。
与 bs4 一样,处理网页首先建立一个 Pyquery 对象。
# 请求简书地址
url = 'http://www.jianshu.com/'
req = requests.get(url)
page = req.text
# 导入 pyquery 处理
pq = pyquery.PyQuery(