python 利用pyquery提取网页内容时,判断网页代码是否含有某标签或是否含有某class属性的标签

假设网页代码如下:

html = """
<div>
    <ul class="m">0</ul>
    <ul>1</ul>
    <ul>2</ul>
    <ul>3</ul>
    <ul>4</ul>
    <a>5</a>
    <img alt="img">
</div>
"""

利用pyquery提取网页内容

from pyquery import PyQuery as pq
h = pq(html)

1. 判断html中的div是否含有a标签、img标签

"""判断含有标签输出标签内容,不含有输出False"""
if h("div img"):
    print(h("div img").attr("alt"))      # 提取img标签alt属性的内容
if h("div a"):
    print(h("div a").text())             # 提取a标签的内容
if h("div span"):
    print(h("div span").text())          # 提取span标签的内容
else:
    print(False)

注:具体的pyquery提取网页标签内容的方法介绍请自行百度

输出结果:

img
5
False

2. 判断html中的div是否含有class属性为m的ul、是否含有class属性为n的ul

"""判断含有输出True,不含有输出False"""
if h("div ul.m"):
    print('h1:',True)
if h("div ul.n"):
    print('h2:',True)
else:
    print(False)

输出结果:

h1: True
False

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
抱歉,我无法提供完整的Python爬虫代码大全。但是,我可以提供一些常见的爬虫模块和库,以及一些基本的爬虫代码示例,以供参考。 1. 爬虫模块和库 - Requests:用于发送 HTTP 请求和处理响应 - Beautiful Soup:解析 HTML 和 XML 文档 - Scrapy:高级网络爬虫框架,用于快速开发和部署爬虫 - Selenium:自动化 Web 浏览器行为,用于模拟用户交互 - PyQuery:类似 jQuery 的库,用于解析 HTML 和 XML 文档 2. 基本爬虫代码示例 以下示例演示如何使用 Requests 和 Beautiful Soup 爬取网站上的数据: ```python import requests from bs4 import BeautifulSoup # 发送 HTTP 请求 url = "https://www.python.org/" response = requests.get(url) # 解析 HTML 文档 soup = BeautifulSoup(response.text, "html.parser") # 提取数据 title = soup.title.string print("Title:", title) links = soup.find_all("a") for link in links: href = link.get("href") if href: print(href) ``` 这个示例演示了如何使用 Scrapy 爬取网站上的数据: ```python import scrapy class MySpider(scrapy.Spider): name = "myspider" start_urls = ["https://www.python.org/"] def parse(self, response): # 提取数据 title = response.xpath("//title/text()").get() print("Title:", title) links = response.xpath("//a/@href").getall() for link in links: if link.startswith("http"): print(link) # 进一步爬取 yield scrapy.Request(url, callback=self.parse) ``` 以上示例代码只是演示了爬虫的基本原理,实际上,爬虫需要考虑很多因素,例如反爬虫机制、数据存储、数据清洗等。因此,建议在编写爬虫仔细考虑这些因素,并遵守网站的爬虫规则和道德规范。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值