#爬虫数据筛选-XPath
#spider lxml 中 xpath的使用规则
#安装 pip install lxml
#根标签:在标记语言中,处于最外层的一个标签就是根标签.
for example <html>.
#父标签:与子标签对应,内部包含了其他元素,此标签就是内部标签的父标签 .
for example <html>就是<head>的父标签 ;<head>就是<title>的父标签.
#同理 head title就是 html head 的子标签.
兄弟标签:两个或多个处于同一级别的标签,有相同的父标签.
<h1>和<table>;<head>和<body>;<table>和两个<tr>也是兄弟标签.
#路径表达式|结果
/html|选取html元素的所有子节点
注释:假如路径起始于正斜杠,那么此路径始终代表某元素的绝对路径
table/tr/td|选取属于table子元素的所有td元素
//div|//table|选取div或者table下的所有节点
//table|选取所有table子元素,而不管他们在文档中的位置
html//div|选取html元素后代所有div元素,而不管他们在html之下什么位置
//@herf|选取名为href的所有属性
#标签筛选查询匹配
//table/tr[1] |选取属于 table子元素的第一个tr元素
//table/tr[last()] |选取属于 table子元素的最后一个tr元素
//table/tr[last()-1]|选取属于 table子元素的倒数第二个tr元