python 利用pyquery提取网页内容时，判断网页代码是否含有某标签或是否含有某class属性的标签

最新推荐文章于 2022-09-11 18:03:32 发布

不知名程序媛

最新推荐文章于 2022-09-11 18:03:32 发布

阅读量4.6k

点赞数 1

本文链接：https://blog.csdn.net/weixin_44606217/article/details/100552319

版权

假设网页代码如下：

html = """
<div>
    <ul class="m">0</ul>
    <ul>1</ul>
    <ul>2</ul>
    <ul>3</ul>
    <ul>4</ul>
    <a>5</a>
    <img alt="img">
</div>
"""

利用pyquery提取网页内容

from pyquery import PyQuery as pq
h = pq(html)

1. 判断html中的div是否含有a标签、img标签

"""判断含有标签输出标签内容，不含有输出False"""
if h("div img"):
    print(h("div img").attr("alt"))      # 提取img标签alt属性的内容
if h("div a"):
    print(h("div a").text())             # 提取a标签的内容
if h("div span"):
    print(h("div span").text())          # 提取span标签的内容
else:
    print(False)

注：具体的pyquery提取网页标签内容的方法介绍请自行百度

输出结果：

img
5
False

2. 判断html中的div是否含有class属性为m的ul、是否含有class属性为n的ul

"""判断含有输出True，不含有输出False"""
if h("div ul.m"):
    print('h1:',True)
if h("div ul.n"):
    print('h2:',True)
else:
    print(False)

输出结果：

h1: True
False

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不知名程序媛

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python监测网页变化_Python利用Last-Modified实现监控网页变化

weixin_39762441的博客

12-05

4600

工作需要实现监控一个网页的变化，一旦远程某个网页的代码或者内容更新了，马上发出提示。之前考虑过，抓取网页，保存网页，抓取-比对的方案，但是这样做不但访问的频率会受到限制，而且效率也很低。无法满足高效精准的要求。其实，根据浏览器的缓存原理，利用Last-Modified属性，可以做到高效且精准的监控。Last-Modified属性技术原理：在浏览器第一次请求某一个URL时，服务器端的返回状态会是20...

Python判断html的元素,python判断网页元素是否存在的方法

weixin_29094775的博客

06-15

4077

python判断网页元素是否存在的方法发布时间：2020-08-11 09:19:33来源：亿速云阅读：279作者：小新小编给大家分享一下python判断网页元素是否存在的方法，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！python判断网页元素是否存在的方法：可以利用try except语句块来进行判断。try except语句块用来捕获并处理异常，如果执行过程中出现异常，系统会自...

参与评论您还未登录，请先登录后发表或查看评论

判断页面中是否存在某个class属性

weixin_34362991的博客

04-25

1185

$(function(){ $(".button1").click(function(){ if($("#div1").css("display")=="none") { alert("隐藏"); } else { alert("显示"); } }); }); ...

python使用pyquery抓取指定标签

张三琪的博客

07-24

1568

1、pyquery用法类似于jQuery选择器。 2、UserAgent可以自动生成User-Agent。 3、代码块。 #ecoding=gbk import requests import time from pyquery import PyQuery as pq from fake_useragent import UserAgent # 定义头部文件 ua = UserAgent(verify_ssl = False) headers = { "Cookie": "__cfduid=d3

python判断html标签是否存在,使用beautifulsoup Python检查HTML中是否存在特定类

weixin_39888080的博客

06-22

1408

我正在写一个脚本,想要检查html中是否存在特定的类.from bs4 import BeautifulSoupimport requestsdef makesoup(u):page=requests.get(u)html=BeautifulSoup(page.content,"lxml")return htmlhtml=makesoup('https://www.yelp.com/biz/soc...

python3 筛选出网页代码中所有的a标签

qq1359236225的博客

08-13

1119

#爬到网页代码后，获得代码中所有a标签，然后逐个输出a标签的href属性 #爬取xx网页的代码 request = requests.get(“https://www.xx.com”,headers) request.encoding=‘utf-8’ content = request.text; #筛选出代码中的a标签 soup = bs4.BeautifulSoup(content,“html.parser”) linkElems = soup.select(‘h3 > a’) for i in

Python 中 PyQuery 库

既然选择远方，便只顾风雨兼程！

02-27

3918

文章目录PyQuery库一、简介1、概述2、安装3、导包二、用法详解1、初始化1.1 字符串初始化1.2 URL 初始化1.3 文件初始化2、 CSS选择器2.1 属性选择器2.2 节点选择器2.3 筛选选择器3、元素操作3.1 遍历元素3.2 获取属性值4、样式操作4.1 修改样式5、获取值5.1 获取属性值5.2 获取文本值5.3 获取 HTML 元素三、总结 PyQuery库一、简介 1、概述 pyquery库是jQuery的Python实现，能够以jQuery的语法来操作解析

A jQuery-like library for python,python-pyquery-master.zip

热门推荐

宇臾的博客

10-11

1万+

这里主要用到if判断跟hasClass（）这个函数进行判断，下面是代码： html代码：<div id="div" class="on"> <span>如果有名为on的class则隐藏这个div</span> </div>js代码：$(function(){ if($("#div").hasClass('on')){ $(this).css("display","none");

判断组件是否包含指定的Class---hasClass

【程序员不弃】的博客

05-24

1364

1.检查当前的元素是否含有某个特定的类，如果有，则返回true。$('div').hasClass('redColor')2.Jquery为每个匹配的元素添加指定的类名。$("p").addClass("selected");3.Jquery从所有匹配的元素中删除全部或者指定的类。$("p").removeClass("selected");...

python爬虫之PyQuery的基本使用

diaojing1670的博客

09-25

162

PyQuery库也是一个非常强大又灵活的网页解析库，语法与 jQuery 几乎完全相同官网地址：http://pyquery.readthedocs.io/en/latest/jQuery参考文档：http://jquery.cuishifeng.cn/ 1、字符串的初始化 from pyquery import PyQuery as pq html = '''&l...

【python爬虫】class和class_

masterbu的博客

02-19

7007

在使用BeautifulSoup库的find_all()方法定位所需要的元素时，当匹配条件为 class时，会编译报错：这时候应该使用 class_ 就不报错了。 soup.find_all('div', class_ = 'iimg-box-meta') 原因： class在 python 中是关键保留字，不能再将这些字作为变量名或过程名使用，所以class_ 应运而生。 ...

下面哪个python库不能用于提取网页信息_利用python的webscraping库采集抓取爱帮网电话号码...

weixin_39889329的博客

12-04

336

利用python的webscraping模块抓取爱帮网电话号码，本文采集该页面的标题和2个电话号码，具体的python代码：# -*- coding: UTF-8 -*-'''Created on 2014-5-9'''#导入urllib2库，用于获取网页import urllib2#使用开源库Webscraping库的xpath模块from Webscraping import xpath,co...

python解析html基础操作

zyp626的博客

09-11

6110

通过python的lxml对html文件进行基础的操作

Python爬虫_第一篇爬虫之路（3）_BeautifulSoup搜索文档树

Blog of Mary Sun

07-13

322

3、Beautiful Soup定义了很多搜索方法,这里着重介绍2个:find()和find_all() 3.1过滤器贯穿整个搜索的API.过滤器可以被用在tag的name中,节点的属性中,字符串中或他们的混合中。 3.2 find_all() find_all(name,attrs,recursive,string,**kwargs) ...

python读取html指定内容_python 解析html<script>标签内变量内容

weixin_39679718的博客

12-02

3615

最近在试用scrapy爬取网站数据发现部分图表是通过异步生成的，scrapy获取到的html页面内只有一个空标签。因此只能查找其原数据，还好通过翻查实例化表格的js文件就追溯到了。但是数据在原html页面内的script标签内以js直接定义，如下图：不能直接通过xpath获取，而且是普通object和array两种格式，通过直接字符串操作肯定不够优雅。因此需要绕一下：import js2xmlim...