爬虫笔记-XPath的使用

最新推荐文章于 2022-09-24 15:51:19 发布

黑面|书生

最新推荐文章于 2022-09-24 15:51:19 发布

阅读量590

点赞数

分类专栏：爬虫文章标签： python xpath html xml

本文链接：https://blog.csdn.net/weixin_44533129/article/details/106106363

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

爬虫笔记-XPath使用

1 Xpath常用规则

在这里插入图片描述

2 Xpath实例，自动修正HTML文本

from lxml import etree

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
# html结果为byte类型
html = etree.HTML(text)
# 转为string
result = etree.tostring(html)
print(result.decode('utf-8'))

输出：

<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div>
</body></html>

注意：补全HTML body 和节点

3 Xpath实例，读取HTML文件

test.html：

<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>

代码

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

输出：

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div></body></html>

4 Xpath实例，获取所有节点

代码：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//*')
print(result)

输出：

[<Element html at 0x1f36602a0c8>, <Element body at 0x1f36602a108>, 
<Element div at 0x1f36602a148>, <Element ul at 0x1f36602a188>, <Element li at 
0x1f36602a1c8>, <Element a at 0x1f36602a248>, <Element li at 0x1f36602a288>, 
<Element a at 0x1f36602a2c8>, <Element li at 0x1f36602a308>, <Element a at 
0x1f36602a208>, <Element li at 0x1f36602a348>, <Element a at 0x1f36602a588>, 
<Element li at 0x1f36602a5c8>, <Element a at 0x1f36602a608>]

5 Xpath实例，获取指定节点

代码：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
# 获取所有li节点
result = html.xpath('//li')
print(result)
# 第一个li节点
print(result[0])

输出：

[<Element li at 0x24cfa138288>, <Element li at 0x24cfa1383c8>, <Element li at 0x24cfa138408>, <Element li at 0x24cfa138448>, <Element li at 0x24cfa138488>]
<Element li at 0x24cfa138288>

6 Xpath实例，获取元素的子节点（通过//或者/）

/ 获取直接子节点
// 获取所有子孙节点
代码：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
# 获取所有li节点下的所有直接a节点
result = html.xpath('//li/a')
print(result)

输出：

[<Element a at 0x19ff43fb188>, <Element a at 0x19ff43fb1c8>, <Element a at 0x19ff43fb208>, <Element a at 0x19ff43fb248>, <Element a at 0x19ff43fb288>]

注意： 这里如果用//ul/a，是获取不到数据的，因为li节点的直接子孙没有a节点
代码：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
# 获取所有li节点下的所有子孙a节点
result = html.xpath('//li//a')
print(result)

输出：

[<Element a at 0x21d418782c8>, <Element a at 0x21d41878308>, <Element a at 0x21d41878348>, <Element a at 0x21d41878388>, <Element a at 0x21d418783c8>]

7 Xpath实例，获取父节点

使用…获取
代码：

from lxml import etree
# 使用..获取
html = etree.parse('./test.html', etree.HTMLParser())
# 属性值为link4.html的a节点的父节点
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)

输出：

['item-1']

使用parent::获取
代码：

from lxml import etree
# 使用parent::获取
html = etree.parse('./test.html', etree.HTMLParser())
# 属性值为link4.html的a节点的父节点
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

输出：

['item-1']

8 Xpath实例，属性匹配过滤

代码：

from lxml import etree
# 使用@符号过滤
html = etree.parse('./test.html', etree.HTMLParser())
# 选取class为item-1的li节点,使用@class="item-0"是限制了节点的class属性为item-0
result = html.xpath('//li[@class="item-0"]')
print(result)

输出：

[<Element li at 0x28efa6d83c8>, <Element li at 0x28efa6d8408>]

9 Xpath实例，文本获取，text（）方法

先选取a节点再获取文本
代码：

from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser())
# 先选取a节点再获取文本
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)

输出：

['first item', 'fifth item']

直接使用//获取文本
代码：

from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser())
#直接使用//获取文本
result = html.xpath('//li[@class="item-0"]//text()')
print(result)

输出：

['first item', 'fifth item', '\n     ']

10 Xpath实例，属性获取，@

代码：

from lxml import etree
# 获取li节点下a节点的href属性
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)

输出：

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

11 Xpath实例，属性多值获取 contains()

代码：

from lxml import etree
# 含有li li-first两个属性
text = '''<li class="li li-first"><a href="link.html">first item</a></li>'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li")]/a/text()')
print(result)

输出：

['first item']

12 Xpath实例，多个属性确定一个节点-and

代码：

from lxml import etree
# 含有li li-first和name两个属性
text = '''
<li class="li li-first" name="item"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

输出：

['first item']

注意： 这里的and是XPath的运算符，除了and还有许多其他运算符：
在这里插入图片描述

13 Xpath实例，按序选择

代码：

from lxml import etree

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
# 第一个li节点
result = html.xpath('//li[1]/a/text()')
print(result)
# 选取最后一个节点
result = html.xpath('//li[last()]/a/text()')
print(result)
# 选取位置小于3的li节点，也就是1和2
result = html.xpath('//li[position()<3]/a/text()')
print(result)
# 选取倒数第三个li节点
result = html.xpath('//li[last()-2]/a/text()')
print(result)

输出：

['first item']
['fifth item']
['first item', 'second item']
['third item']

14 Xpath实例，节点轴选择

代码：

from lxml import etree

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html"><span>first item</span></a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
result = html.xpath('//li[1]/ancestor::*')
print(result)
result = html.xpath('//li[1]/ancestor::div')
print(result)
result = html.xpath('//li[1]/attribute::*')
print(result)
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result)
result = html.xpath('//li[1]/descendant::span')
print(result)
result = html.xpath('//li[1]/following::*[2]')
print(result)
result = html.xpath('//li[1]/following-sibling::*')
print(result)

输出：

[<Element html at 0x26e6498d888>, <Element body at 0x26e6498d808>, <Element div at 0x26e6498d788>, <Element ul at 0x26e6498d8c8>]
[<Element div at 0x26e6498d788>]
['item-0']
[<Element a at 0x26e6498d8c8>]
[<Element span at 0x26e6498d788>]
[<Element a at 0x26e6498d8c8>]
[<Element li at 0x26e6498d808>, <Element li at 0x26e6498d908>, <Element li at 0x26e6498d948>, <Element li at 0x26e6498d988>]

黑面|书生

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫笔记-XPath的使用

爬虫笔记-XPath使用1 Xpath常用规则2 Xpath实例，自动修正HTML文本from lxml import etreetext = '''<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.ht
复制链接

扫一扫

专栏目录