xpath
- 正则表达式相当于一个模板,而xpath解析网页 提取数据
- 不同网页结构 我们灵活采用不同的技术
一、xpath介绍
基本概念
- XPath(XML Path Language)是一种XML的查询语言,他能在XML树状结构中寻找节点。XPath 用于在 XML 文档中通过元素和属性进行导航
- xml是一种标记语法的文本格式,xpath可以方便的定位xml中的元素和其中的属性值。lxml是python中的一个第三方模块,它包含了将html文本转成xml对象,和对对象执行xpath的功能
- xpath就是一种可以根据地址找到元素的技术,确定路径就可以找到
几个符号 | 含义 |
---|---|
html | html 超文本标记语言,<> 标识 |
xml | 可扩展标记语言 除了标识,也可以用于简单的数据存储 |
lxml | 是一个python的模块,html 网页源代码,不能用xpath,把html文本转化成xml对象,就可以使用xpath进行解析 |
(一)节点关系分析
xml_content = '''
<bookstore>
<book> # book元素