Python 高效提取 HTML 文本的方法

最新推荐文章于 2024-07-27 12:20:46 发布

小白^-

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量6.5k

点赞数 2

分类专栏：学习Python 分享文章标签： python

本文链接：https://blog.csdn.net/weixin_46737755/article/details/112506334

版权

在这里插入图片描述
在解决自然语言处理问题时，有时你需要获得大量的文本集。互联网是文本的最大来源，但是从任意HTML页面提取文本是一项艰巨而痛苦的任务。

假设我们需要从各种网页中提取全文，并且要剥离所有HTML标记。通常，默认解决方案是使用BeautifulSoup软件包中的get_text方法，该方法内部使用lxml。这是一个经过充分测试的解决方案，但是在处理成千上万个HTML文档时可能会非常慢。

通过用selectolax替换BeautifulSoup，您几乎可以免费获得5-30倍的加速！

这是一个简单的基准测试，可分析commoncrawl(`处理NLP问题时，有时您需要获得大量的文本集。互联网是文本的最大来源，但是不幸的是，从任意HTML页面提取文本是一项艰巨而痛苦的任务。

通过用selectolax替换BeautifulSoup，您几乎可以免费获得5-30倍的加速！这是一个简单的基准测试，可分析commoncrawl(https://commoncrawl.org/)的10,000个HTML页面：

# coding: utf-8

from time import time

import warc
from bs4 import BeautifulSoup
from selectolax.parser import HTMLParser


def get_text_bs(html):
    tree = BeautifulSoup(html, 'lxml')

    body = tree.body
    if body is None:
        return None

    for tag in body.select('script'):
        tag.decompose()
    for tag in body.select('style'):
        tag.decompose()

    text = body.get_text(separator='\n')
    return text


def get_text_selectolax(html):
    tree = HTMLParser(html)

    if tree.body is None:
        return None

    for tag in tree.css('script'):
        tag.decompose()
    for tag in tree

最低0.47元/天解锁文章

小白^-

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Python 高效提取 HTML 文本的方法

在解决自然语言处理问题时，有时你需要获得大量的文本集。互联网是文本的最大来源，但是从任意HTML页面提取文本是一项艰巨而痛苦的任务。假设我们需要从各种网页中提取全文，并且要剥离所有HTML标记。通常，默认解决方案是使用BeautifulSoup软件包中的get_text方法，该方法内部使用lxml。这是一个经过充分测试的解决方案，但是在处理成千上万个HTML文档时可能会非常慢。通过用selectolax替换BeautifulSoup，您几乎可以免费获得5-30倍的加速！这是一个简单的基准测试，可分析.
复制链接

扫一扫

专栏目录