python爬虫之xpath详解(附加实战代码)

最新推荐文章于 2025-03-07 16:26:05 发布

01Coding

最新推荐文章于 2025-03-07 16:26:05 发布

阅读量4.1k

点赞数 5

分类专栏： python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_54279427/article/details/122723538

版权

xpath解析

最常用切最便捷高效的一种方式
xpath解析原理：
1. 实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中
2. 调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获
环境安装
- pip install lxml
如何实例化一个etree对象
1. 导包：from lxml import etree
2. 将本地的HTML文档中的数据加载到该对象中：
  - etree.parse(filePath,etree.HTMLParser())
  - 解析本地本件第二个参数最好加上，不然可能报错
3. 可以将互联网上获取的源码数据加载到该对象中
  - etree.HTML(‘page_text’)

xpath(‘xpath表达式’)

标签定位：

xpath表达式只能用层级定位定位标签

# 标签的定位
#最前面的/表示从根节点开始
# 一个标签返回一个element对象
r=tree.xpath('/html/head/title')

多层级定位

#一个//表示一个多层级，也可以表示从任意位置开始定位
r=tree.xpath('/html//title')

精准定位

#精准定位class为song的divs
r = tree.xpath('//div[@class="ong"]')

索引定位

# 索引定位,返回第几个元素，且索引从1开始
r = tree.xpath('//div[@class="song"]/p[3]')

取直系文本

#取文本,text()返回的是一个列表,取得是直系内容
  r = tree.xpath('//div[@class="song"]//li[5]/a/text()')

取非直系文本

#获取标签中非直系的文本内容
r

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

01Coding

关注关注

5
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

万字博文教你python爬虫XPath库【详解篇】

孤寒者的博客

09-29

58万+

万字博文教你python爬虫XPath库【详解篇】

Python爬虫之利用xpath案例（极简版）

weixin_43636211的博客

04-28

646

爬取豆瓣TOP250榜第一页的电影信息（xpath极简版） from lxml import etree import requests url='https://movie.douban.com/top250' headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫-数据解析（xpath）

最新发布

李黏黏的博客

03-07

868

在自动化测试用例中使用XPath定位界面元素，需结合路径表达式、属性匹配和逻辑函数等技巧。XPath的核心是。建议优先使用相对路径+属性组合，复杂场景结合函数和轴定位。

python爬取数据案例分析_Python 爬虫数据解析--xpath案例

weixin_39833469的博客

11-28

234

案例一：解析出全国所有城市名称代码如下：import requestsfrom lxml import etreeif __name__ == "__main__":headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chro...

xpath实践代码总结

uestcyao的专栏

08-21

1013

xpath依据条件解析抽取网页中的需要的数据的方法：使用的软件包，lxml其中的etree.HTML方法用于将格式化过的包含HTML数据的.xml文件处理成可供xpath正确处理的节点树, codecs这个软件包的功能不详！！, chilkat用于将html文件格式化成标准的xml文件（即标签的开关是严格对应的）。 xpath处理的最好是.xml后缀的文件，尝试了下html后缀的文件，即使内容完

Python | Xpath实战训练

Python专栏

09-07

786

一、前言今天给大家分享的是，如何在cmd和pycharm中启动自己的spider以及Xpath的基本介绍，并利用Xpath抓取伯乐在线单篇文章基本信息。二、Xpath介绍...

python爬虫之xpath的基本使用详解

09-20

Python爬虫中，XPath是一种强大的查询语言，用于在XML或HTML文档中查找和解析数据。XPath的全称是XML Path Language，它允许开发者通过路径表达式来选取XML文档中的节点，包括元素、属性、文本等。XPath在Python的...

Python爬虫基础知识详解及实战.docx

09-24

Python爬虫是一种自动化程序，用于模拟浏览器发送网络请求，并接收响应，通过设定的规则...通过本文的介绍，读者将对Python爬虫有一个全面的了解，掌握其核心概念和关键技术，为进一步的学习和实战应用打下坚实基础。

python 中xpath爬虫实例详解

09-18

主要介绍了python实例：xpath爬虫实例,本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下

自动解析HTML代码，生成所有可用Xpath

08-22

由于最近需要对网站进行数据提取，故是用Xpath，在网上并没有找到可以自动生成Xpath。所以抽出一点时间，赶出来一个可以自动生成Xpath的小工具，并支持在生成好的Xpath中进行匹配自己需要的内容，并输入对应的Xpath。该工具，暂只支持HTML，以后可以优化，如果有朋友喜欢，可以自行修改。上传文件包含源代码，由于是新手，所以代码很乱，希望大家别介意。

支持xpath的高效xml解析库源代码

07-08

PUGIXML是一个支持xpath的高性能XML解析库，C++源代码

python xpath 获取指定页面中指定区域的html代码

weixin_30550081的博客

10-12

1602

　　最近一个朋友问我怎么把一个指定区域的内容转成pdf，网上查了一下python里面有个wkhtmltopdf模块可以将str、file、url转成pdf，我们今天不聊怎么转PDF，聊聊怎么获取页面中指定区域的html源码。用到的模块是lxml和requests这两个模块，没有装的小伙伴可以装一下 pip install lxml requests 主要思想是利用xpa...

python爬虫：使用xpath基础+实例

m0_73716246的博客

07-31

8098

Xpath 是高效简单，在XML文档中搜索内容的一门语言，最初是用来搜寻 XML 文档的，但是HTML语言是XML的一个子集，它同样适用于 HTML 文档的搜索。在Python爬虫中，我们经常通过安装lxml库，利用xpath解析这种高效便捷的方式来提取信息。

【Java】XPath简介

别下完这场雪

09-18

5185

XPath简介

python 爬虫 xpath 详解

weixin_44029791的博客

04-09

1534

python 爬虫 xpath 详解导入模块代码： from bs4 import etree 实例化一个etree对象代码： tree=etree.parse('test.html') #将网页源码解析并加载到了该对象中 xpath表达式层级定位 /：表示的是从根节点开始定位，表示的是一个层级 r=tree.xpath('/html/body/div') #'/html'：根目录开始查找 #r:返回值是一个列表 #查找的是全部符合表达式的结果 //：表示的是多个层级，可以表示从任意位置开始定

2023爬虫学习笔记 -- 优化xpath解析代码

Web安全工具库

02-20

558

2、程序有个错误提示，这个提示需要在请求参数上多添加一个值，verify=False，或者将https变为http。5、第三步和第四步代码重复，可以通过管道符号“|”将两个表达分割，代码如下。二、分析要获取数据，热门城市、全部城市。3、通过xpath解析出热门城市。4、通过xpath解析出全部城市。仅供学习交流，勿作他用。

xpath获取标签的属性值_Python现学现用xpath爬取豆瓣音乐！

weixin_39683526的博客

11-20

444

昨天说了Requests库，今天来上手爬虫了.爬虫的抓取方式有好几种，正则表达式，Lxml(xpath)与BeautifulSoup,我在网上查了一下资料，了解到三者之间的使用难度与性能三种爬虫方式的对比。抓取方式性能使用难度正则表达式快困难Lxml快简单BeautifulSoup慢简单这样一比较我我选择了Lxml(xpath)的方式了，虽然有三种方式，但肯定是要选择最好的方式来爬虫，这个道理大家...