假设网页代码如下:
html = """
<div>
<ul class="m">0</ul>
<ul>1</ul>
<ul>2</ul>
<ul>3</ul>
<ul>4</ul>
<a>5</a>
<img alt="img">
</div>
"""
利用pyquery提取网页内容
from pyquery import PyQuery as pq
h = pq(html)
1. 判断html中的div是否含有a标签、img标签
"""判断含有标签输出标签内容,不含有输出False"""
if h("div img"):
print(h("div img").attr("alt")) # 提取img标签alt属性的内容
if h("div a"):
print(h("div a").text()) # 提取a标签的内容
if h("div span"):
print(h("div span").text()) # 提取span标签的内容
else:
print(False)
注:具体的pyquery提取网页标签内容的方法介绍请自行百度
输出结果:
img
5
False
2. 判断html中的div是否含有class属性为m的ul、是否含有class属性为n的ul
"""判断含有输出True,不含有输出False"""
if h("div ul.m"):
print('h1:',True)
if h("div ul.n"):
print('h2:',True)
else:
print(False)
输出结果:
h1: True
False