爬取不规范html网页文本时，用html5lib解析不规范的html文本

最新推荐文章于 2024-11-06 09:04:52 发布

执笔写回憶

最新推荐文章于 2024-11-06 09:04:52 发布

阅读量597

点赞数

分类专栏： xpath BeautifulSoup html5lib

本文链接：https://blog.csdn.net/z564359805/article/details/107292683

版权

xpath 同时被 3 个专栏收录

10 篇文章

订阅专栏

BeautifulSoup

5 篇文章

订阅专栏

html5lib

1 篇文章

订阅专栏

安装解析器：

 pip install html5lib

from lxml import etree
from bs4 import BeautifulSoup

# text中<tr>标签只有闭合标签，没有起始标签
text = """
<table>
        <td>姓名</td>
        <td>年龄</td>
    </tr>
        <td>出生日期</td>
        <td>地址</td>
    </tr>
        <td>说明</td>
        <td>备注</td>
    </tr>
</table>
"""
# 默认是lxml解析
html = etree.HTML(text)
# 结果：[]，lxml无法正确解析出不规范的标签
print(html.xpath('//table/tr[1]/td[1]/text()'))

#利用BeautifulSoup和html5lib先将不规范的html文本转为规范的文本再解析
soup = BeautifulSoup(text,'html5lib')
print(soup.prettify()) # 结果大概如下，自动补全了标签
"""
<html><head></head><body>
<table>
    <tbody>
        <tr>
            <td>姓名</td>
            <td>年龄</td>
        </tr>
        <tr>
            <td>出生日期</td>
            <td>地址</td>
        </tr>
        <tr>
            <td>说明</td>
            <td>备注</td>
        </tr>
    </tbody>
</table>
</body></html>
"""
html = etree.HTML(soup.prettify())
# 结果：['\n      姓名\n     ']
print(html.xpath('//table/tbody/tr[1]/td[1]/text()'))