python爬虫之网站xpth实战

本文介绍了XPath作为HTML和XML页面元素筛选的语法,包括选取节点、谓语、通配符和选取若干路径等核心概念,并通过下载lxml库和解析网站的实际案例,展示了XPath在Python爬虫中的应用。
摘要由CSDN通过智能技术生成

python爬虫之网站xpth实战

python爬虫之网站xpth使用


前言

在我认知的爬虫领域有很多爬虫查找信息的语言和库,比如我们爬取网站是会requests请求网页的信息,通过正则,xpath,beautifulsoup,pyquery等相关库,这里我们详细的解说xpath的使用和一个实战案例

提示:以下是本篇文章正文内容,下面案例可供参考

一、xpath是什么?

xpath是一种筛选html或者xml页面元素的【语法】

二、xpath语法

(1)选取节点
        nodename — 选取此标签及其所有字标签。
        /----从根节点开始选取。
        // ----从任意节点开始,不考虑他们的位置。
        //book—不管book位置,在xml中取出所有的book标签。
        .----当前节点开始找
        …----从父节点
        @ —选取属性
        text()—选取内容
    (2)谓语:起限定的作用,限定他前面的内容。
        []写在谁的后面,就限定谁,一般用于限定元素或者标签。
        //book[@class=‘abc’]
        常见的谓语:
          [@class] ----选取有class
          [@class=‘abc’] —选取class属性为abc的节点。
          [contains(@href,‘baidu’)] —选取href属性包含baidu的标签
          [1] —选取第一个
          [last()]—选取最后一个
          [last()-1]—选取倒数第二
          [position()>2]—跳过前两个。
          book[price>30]
    (3)通配符
        * —匹配任意节点
        @* —匹配任意属性
    (4)选取若干路径
       —左边和右边的xpath选的内容都要—and
上述的官方文档解释可能看不懂,没事下面由我做一个案例进行解释一下

三、xpath实战案例<

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值