[网络爬虫]Xpath数据解析

 

  • 🎈个人主页:北·海
  •  🎐CSDN新晋作者
  •  🎉欢迎 👍点赞✍评论⭐收藏
  • ✨收录专栏:网络爬虫
  • 🤝希望作者的文章能对你有所帮助,有不足的地方请在评论区留言指正,大家一起学习交流!🤗
  • xpath解析 : 最常用且最便捷最高效的一共解析方式,通用性
    • xpath解析原理
      • 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
      • 调用etree对象中的xpath方法结合着xpatj表达式实现标签的定位与内容的捕获
  • 环境的安装
    • pip install lxml
  • 如何实例化一个etree对象: from lxml import etree
    • 将本地的html文档中的源码数据加载到etree对象中
      • etree.prase(filePath)
  • 可以将从互联网上获取的源码数据加载到该对象中
    • etree.HTML('page_text')
  • xpath('xpath表达式')
  • xpath表达式:
    • / : 表示的是从根节点开始定位,标识的是一个层级
    • // : 表示的是多个层级,可以表示从任意位置开始定位
    • 属性定位: //div[@class ="song"] tag[@attrName = "attrValue"]
    • 索引定位 : //div[@class = "song"]/p[3]  索引时从1开始的
    • 取文本
      • /text() 获取的是标签中直系的文本内容
      • //text() 获取的是标签中非直系的文本内容,(所有的文本内容)
    • 取属性
      • /@attrName   ==> img/src


实例; xpath

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北·海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值