xpath解析原理:
1.需要实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
2.通过调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获
如何实例化一个etree的对象:from lxml import etree
1.将本地的HTML文档中的源码数据加载到etree对象中:
etree.parse(filePath)
例:tree=etree.parse('text1.html',etree.HTMLParser())
2.可以将从互联网上获取的源码数据加载到该对象中
etree.html('page_text')
xpath('xpath表达式'):
最左侧的/表示的是从根节点开始定位
/:表示的是一个层级
r=tree.xpath('/html/body/div')
//:表示的是多个层级;
r=tree.xpath('/html//div')
//:表示可以从任意位置开始定位
r=tree.xpath('//div')
属性定位:
tag[@属性名称='' 属性值'']
tree.xpath('//div[@class="wiki-common-headTabBar"]')
索引定位:
索引从1开始,不是0
tree.xpath('//div[