pyquery解析库

最新推荐文章于 2024-05-11 22:30:00 发布

隐藏玩家

最新推荐文章于 2024-05-11 22:30:00 发布

阅读量245

点赞数

分类专栏： python爬虫从入门学习到放弃

本文链接：https://blog.csdn.net/weixin_43843978/article/details/89890646

版权

python爬虫从入门学习到放弃专栏收录该内容

11 篇文章 0 订阅

订阅专栏

前言

beautiful Soup是一个强大的网页解析库，但他的CSS选择器功能并不是那么的强大。相比于此pyquery具有更加强大的功能。
1.初始化
可以直接传入字符串，URL，传入文件名。

字符串初始化

html = '''
<div>
<ul>
<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('li'))

数出结果为:

<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>

代码解析：
这里首先引入PyQuery这个对象，区别名为pq，然后在声明一个HTML字符串，并将其当做参数传递给PyQuery类，接下将初始化对象传入CSS选择器。我们上述中传入的是li节点就是选择所有的节点。

URL初始化
初始化参数不仅可以以字符串形式传递也可以通过传入网页的URL。

from pyquery import PyQuery as pq
doc = pq(url= 'https://hua-tu-gui-cai-tbh.blog.csdn.net/article/category/8846432')
print(doc('title'))

输出结果为:

<title>【weixin_43843978的博客】数学笔记1_算法竞赛入门学习_python入门学习 - CSDN博客</title>

这样的话，PyQuery对象会首先请求这个URL，然后用得到HTML内容完成初始化，这其实就相当于用网页的源代码以字符串的形式传递给PyQuery类来初始化。
它的功能相当于是：

from pyquery import PyQuery as pq
import requests
doc = pq(requests.get('https://hua-tu-gui-cai-tbh.blog.csdn.net/article/category/8846432').text)
print(doc('li'))

文件初始化
当然，除了传递URL，还可以传递本地的文件名，此时将参数指定为filename即可：

from  pyquery import PyQuery ad pq
doc= pq(file.name='demo.html')
print(doc('li'))

这里需要一个HTML文件，其内容是带解析的HTML字符串，这他会读取本地的文件内容然后用文件以字符串的形式传递给PyQuery类来初始化。

3.基本CSS选择器

html = '''
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li'))
print(type(doc('#container .list li')))

输出结果为:

<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>

<class 'pyquery.pyquery.PyQuery'>

这里先是初始化Py/query对象之后，传入一个CSS选择器#container .list li，它的意思是先选取id为container的节点，然后再选取内部的class为list的节点内部所有li节点。然后打印输出。
query:查询。

查找节点

子节点
查找子节点时，需要用到find()方法，此时传入的参数是CSS选择器。

html = '''
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
print(type(items))
print(items)
lis = items.find('li')
print(type(lis))
print(lis)

输出结果为：

<class 'pyquery.pyquery.PyQuery'>
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>
</ul>

<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>查找子节点

首先，我们提取class为list节点，然后调用了find()方法，传入CSS选择器，选取其内部的li节点，最后打印输出。可以发现，find()方法；会将符合条件的所有节点选择出来，结果PyQuery类型。
其实 find()查找范围是节点的所有子孙节点，而如果我们只想查找子节点，那么可以用children()方法：

lis = items.children()
print(type(lis))
print(lis)

运行结果为：

<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>

如果要筛选所有子节点中符合要求的节点，比如想筛选子节点class为active的节点，可以向children()方法传入CSS选择器.active。

lis = items.children('.active')
print(lis)

父节点
我们可以用parent()方法来获取某个节点的父节点，实例如下:

from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
lis= items.parent()
print(type(lis))
print(lis)

输出结果:

<class 'pyquery.pyquery.PyQuery'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>
</ul>
</div>

这里的父节点是该节点的直接父节点，也就是说它不会再去查找父节点的父节点，即祖父节点，但是如果想获取某个祖先节点，可以使用parents()方法。

from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
lis= items.parents()
print(type(lis))
print(lis)

可以看到，输出结果有两个:一个是class为wrap的节点一个是id是container的节点，也就是说parents()方法会返回所有的祖先节点。
如果想要筛选某个祖先的节点的话，可以向parents()方法传入CSS选择器，这样就会返回祖先节点中符合CSS选择器的节点。

parent = items.parents('.wrap')
print(parent)

可以看到，输出结果少了一个节点只保留class为wrap的节点。

兄弟节点
前面我们说明了子节点和父节点的用法，还有一种节点，那就是兄弟节点。如果要获取兄弟节点，可以使用siblings()方法。这里还是以上面的代码为例：

html = '''
<div class='wrap'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings())

输出结果：

<li class="item-1"><a herf="link2.html">second item</a></li>
<li class="item-0">first item</li>
<li class="item-1 active"><a herf="link4.html">fourth item</a></li>

如果要筛选某个兄弟节点，我们依然可以向sibings方法传入CSS选择器，这样就会从所有兄弟节点中挑选出符合条件的节点。

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings('.active'))

输出结果:

<li class="item-1 active"><a herf="link4.html">fourth item</a></li>

5.遍历
刚才可以观察，pyquery的选择结果可能是多个节点，也可能是单个结点，类型都是PyQuery类型，并没有返回像Beautiful Soup。那样的列表。
对于单个节点来说，可以直接打印输出，也可以直接转成字符串:

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
print(str(li))

输出结果：

<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>
<li class="item-0 active"><a herf="link3.html"><span class="bold">third item</span></a></li>

如果结点有多个的话，可以使用items()方法。

from prquery import PyQuery as pq
doc = pq(html)
lis = doc('li').items
print(type(lis))
for li in lis:
	print(li,type(li))

运行结果为;

可以发现调用items()方法后，得到一个生成器，遍历一下，就可以逐个得到li结点对象了，它的类型也是PyQuery类型。每个结点还可以调用前面所说的方法进行选择。

获取信息

提取到节点之后，我们的最终目的就是提取节点的信息了，比较重要的信息有两类，一是获取属性，二是获取文本。

提取属性
提取PyQueury类型的节点后，就可以调用attr()方法来获取属性。

html = '''
<div class='wrap'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active a')
print(li, type(li))
print(li.attr('href'))

输出结果为:

<a href="link3.html"><span class="bold">third item</span></a> <class 'pyquery.pyquery.PyQuery'>
link3.html

这里首先选中class为item-0和active的li节点内的a节点，它的类型是PyQuery类型。然后调用attr()方法，在这个方法中传入属性的名称就可以得到属性的值了。
此外也可以通过调用attr属性来获取属性，用法如下：

print(a.att.href)

输出结果是一样的。
如果选中的是多个元素然后调用attr()方法，会出现怎么样的结果呢？我们用实例来测试一下：

a = doc('a')
print(a, type(a))
print(a.attr('href'))
print(a.attr.href)

运行结果如下：

<a href="link2.html">second item</a><a href="link3.html"><span class="bold">third item</span></a><a href="link4.html">fourth item</a> <class 'pyquery.pyquery.PyQuery'>
link2.html
link2.html

可以观察到attr的返回结果仅仅有一个，那么遇到这种情况想要获取a结点的所有属性就要用到遍历操作了。

from pyquery import PyQuery as pq
doc = pq(html)
a=doc('a')
for item in a.items():
	print(item.attr('href'))

运行结果为:

link2.html
link3.html
link4.html
link5.html

当返回的结点是多个的时候我们有必要采用这种方式来获取所有的数据。

获取文本
获取文本之后的另一个主要操作就是获取其内部的文本了，此时就可以采用text()方法来实现；

from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active a')
print(a)
print(a.text())

输出结果为:

<a href="link3.html"><span class="bold">third item</span></a>
third item

这里首先选中一个a节点，然后调用text()方法，就可以获取其内部的文本信息，此时他会忽略掉结点内部包含的所有HTML，只返回纯文本内容。
但如果想要获取这个节点内部的HTML文本，就要html()方法。

html = '''
<div class='wrap'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active')
print(a)
print(a.html())

运行结果为:

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<a href="link3.html"><span class="bold">third item</span></a>

如果我们选中的结果是多个节点，text()或html()会返回什么内容呢？

html = '''
<div class='wrap'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('li')
print(li.html())
print(li.text())
print(type(li.text()))

输出结果为:

first item
first item second item third item fourth item
<class 'str'>

html返回的是第一个li节点内部HTML文本，而text()则返回了所有的里节点内部的纯文本，中间用一个空格分隔开，则返回结果是一个字符串。

节点操作

pyquery提供了一系列方法来对节点进行动态修改，比如为某个节点添加一个class，移除某个节点等，这些操作有时候会提供信息带来极大的便利。

add_class 和 remove_class

html = '''
<div class='wrap'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.remove_class('active')
print(li)
li.add_class('active')
print(li)

输出结果为:

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

所以这两个方法可以动态的改动该点的class属性。

attr,text和html
attr()方法对属性进行操作。
text()和html()方法改变节点内部的内容。实例如下:

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.attr('name', 'link')
print(li)
li.text('changed item')
print(li)
li.html('<span>changed item</span>')
print(li)

输出结果为;

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.attr('name', 'link')
print(li)
li.text('changed item')
print(li)
li.html('<span>changed item</span>')
print(li)

attr()方法来修改属性值，其中该方法的第一个参数为属性名，第二个参数为属性值，接着用text()和html()方法来改变节点内部的内容。

remove()
remove()是移除的意思，他有时会为信息提取带来非常大的便利。

html = '''
<div class="wrap">
    Hello, World
<p>This is a paragraph.</p>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
wrap = doc('.wrap')
print(wrap.text())

输出结果为：

Hello, World
This is a paragraph.

如果单单的想要获取Hello，World而忽略< p >节点中的文本。

from pyquery import PyQuery as pq
doc = pq(html)
wrap = doc('.wrap')
wrap.find('p').remove()
print(wrap.text())

输出结果为：

Hello, World

对于节点的操作请看‘http://pyquery.readthedocs.io/en/latest/api.html’.
195页- 伪类选择器省略。

隐藏玩家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录