Python爬虫应用实战案例-xpath正则表达式使用方法,爬取精美壁纸

本文介绍了如何使用XPath在Python中解析HTML,以爬取精美壁纸为例,详细讲解了XPath的基本规则,包括获取所有节点、指定节点、子节点、父节点、属性匹配等。并提供了实战案例,演示了如何获取和保存图片链接,实现爬虫功能。
摘要由CSDN通过智能技术生成

使用XPath

XPath,全称XML Path Language,即XML路径语言,它是在XML语言中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。

在上一篇文章中讲述了正则表达式的使用方法,正则表达式的难度还是比较大的,如果不花足够多的时间去做的话还是比较难的,所以今天就来分享比正则简单的内容,方便大家接下来的学习。

XPath常用规则

XPath的规则是非常丰富的,本篇文章无法一次性全部概括,只能为大家介绍几个常用的规则。

表达式 描述
nodename 选取此节点的所有子节点
/ 从当前节点选取直接子节点
// 从当前节点选取子孙节点
. 选取当前子节点
.. 选取当前节点的父节点
@ 选取属性

准备工作

在使用之前得先安装好lxml这个库,如果没有安装请参考下面的安装方式。

pip install lxml

案例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值