[网络爬虫]Xpath数据解析

北·海

已于 2023-08-28 09:20:42 修改

阅读量127

点赞数

分类专栏： python爬虫文章标签： python 网络爬虫

于 2023-08-01 03:42:56 首次发布

本文链接：https://blog.csdn.net/weixin_73865721/article/details/132014386

版权

11 篇文章 0 订阅

订阅专栏

🎈个人主页：北·海
🎐CSDN新晋作者
🎉欢迎 👍点赞✍评论⭐收藏
✨收录专栏：网络爬虫
🤝希望作者的文章能对你有所帮助，有不足的地方请在评论区留言指正，大家一起学习交流！🤗

xpath解析 : 最常用且最便捷最高效的一共解析方式,通用性
- xpath解析原理
  - 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
  - 调用etree对象中的xpath方法结合着xpatj表达式实现标签的定位与内容的捕获
环境的安装
- pip install lxml
如何实例化一个etree对象: from lxml import etree
- 将本地的html文档中的源码数据加载到etree对象中
  - etree.prase(filePath)
可以将从互联网上获取的源码数据加载到该对象中
- etree.HTML('page_text')
xpath('xpath表达式')
xpath表达式:
- / : 表示的是从根节点开始定位,标识的是一个层级
- // : 表示的是多个层级,可以表示从任意位置开始定位
- 属性定位: //div[@class ="song"] tag[@attrName = "attrValue"]
- 索引定位 : //div[@class = "song"]/p[3] 索引时从1开始的
- 取文本
  - /text() 获取的是标签中直系的文本内容
  - //text() 获取的是标签中非直系的文本内容,(所有的文本内容)
- 取属性
  - /@attrName ==> img/src

实例; xpath

关注