- xpath解析 : 最常用且最便捷最高效的一共解析方式,通用性
- xpath解析原理
- 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
- 调用etree对象中的xpath方法结合着xpatj表达式实现标签的定位与内容的捕获
- xpath解析原理
- 环境的安装
- pip install lxml
- 如何实例化一个etree对象: from lxml import etree
- 将本地的html文档中的源码数据加载到etree对象中
- etree.prase(filePath)
- 将本地的html文档中的源码数据加载到etree对象中
- 可以将从互联网上获取的源码数据加载到该对象中
- etree.HTML('page_text')
- xpath('xpath表达式')
- xpath表达式:
- / : 表示的是从根节点开始定位,标识的是一个层级
- // : 表示的是多个层级,可以表示从任意位置开始定位
- 属性定位: //div[@class ="song"] tag[@attrName = "attrValue"]
- 索引定位 : //div[@class = "song"]/p[3] 索引时从1开始的
- 取文本
- /text() 获取的是标签中直系的文本内容
- //text() 获取的是标签中非直系的文本内容,(所有的文本内容)
- 取属性
- /@attrName ==> img/src
实例; xpath