爬虫之lxml模块中etree.tostring函数的使用

最新推荐文章于 2022-04-11 17:36:24 发布

IT之一小佬

最新推荐文章于 2022-04-11 17:36:24 发布

阅读量3.2k

点赞数 4

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_44799217/article/details/113422099

版权

爬虫专栏收录该内容

73 篇文章 17 订阅

订阅专栏

爬虫之lxml模块中etree.tostring函数的使用

运行下边的代码，观察对比html的原字符串和打印输出的结果

from lxml import etree
html_str = ''' <div> <ul> 
        <li class="item-1"><a href="link1.html">first item</a></li> 
        <li class="item-1"><a href="link2.html">second item</a></li> 
        <li class="item-inactive"><a href="link3.html">third item</a></li> 
        <li class="item-1"><a href="link4.html">fourth item</a></li> 
        <li class="item-0"><a href="link5.html">fifth item</a> 
        </ul> </div> 
        '''

html = etree.HTML(html_str)
print(html)

handeled_html_str = etree.tostring(html).decode()
# handeled_html_str = etree.tostring(html)
print(handeled_html_str)

运行效果：

1.1 现象和结论

打印结果和原来相比：

自动补全原本缺失的li标签
自动补全html等标签

<html><body><div> <ul> 
<li class="item-1"><a href="link1.html">first item</a></li> 
<li class="item-1"><a href="link2.html">second item</a></li> 
<li class="item-inactive"><a href="link3.html">third item</a></li> 
<li class="item-1"><a href="link4.html">fourth item</a></li> 
<li class="item-0"><a href="link5.html">fifth item</a> 
</li></ul> </div> </body></html>

结论：

lxml.etree.HTML(html_str)可以自动补全标签
lxml.etree.tostring函数可以将转换为Element对象再转换回html字符串
爬虫如果使用lxml来提取数据，应该以lxml.etree.tostring的返回结果作为提取数据的依据

IT之一小佬

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫之lxml模块中etree.tostring函数的使用

爬虫之lxml模块中etree.tostring函数的使用运行下边的代码，观察对比html的原字符串和打印输出的结果from lxml import etreehtml_str = ''' <div> <ul> <li class="item-1"><a href="link1.html">first item</a></li> <li class="item-1">&lt
复制链接

扫一扫