lXMl

最新推荐文章于 2024-09-11 17:43:15 发布

〖楠〗

最新推荐文章于 2024-09-11 17:43:15 发布

阅读量229

点赞数

分类专栏：爬虫文章标签： xml

本文链接：https://blog.csdn.net/weixin_45434835/article/details/104340006

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

lxml

使用lxml解析HTML代码：

1. 解析html字符串：使用’lxml.etree.HTML’进行解析。示例代码如下:

htmlElement = etree.HTML(text)
    print(etree.tostring(htmlElement,encoding='utf-8').decode("utf-8"))

2. 解析html文件：使用’lxml.etree.parse’进行解析。示例代码如下：

htmlElement = etree.parse("lxml.html")
    print(etree.tostring(htmlElement, encoding='utf-8').decode("utf-8"))
    ```
    这个函数，默认使用的是‘XML’解析器，所以如果遇到一些不规范的‘HTML’代码的时候就会解析错误，这时候就要自己创建‘HTML’解析器。