Python3 中自动删除HTML文本中的Tag标识，保留纯文本

最新推荐文章于 2023-08-13 11:29:22 发布

softjapan

最新推荐文章于 2023-08-13 11:29:22 发布

阅读量409

点赞数

文章标签： Python

本文链接：https://blog.csdn.net/weixin_44880242/article/details/103253825

版权

# coding: utf-8
import io
from html.parser import HTMLParser

class MyHtmlStripper(HTMLParser):
    def __init__(self, s):
        super().__init__()
        self.sio = io.StringIO()
        self.feed(s)

    def handle_starttag(self, tag, attrs):
        pass

    def handle_endtag(self, tag):
        pass

    def handle_data(self, data):
        self.sio.write(data)

    @property
    def value(self):
        return self.sio.getvalue() 


s2 = """
<p>
非常长非常多的HTML文本
</p>
"""

print(MyHtmlStripper(s2).value)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

softjapan

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python3 中自动删除HTML文本中的Tag标识，保留纯文本

# coding: utf-8import iofrom html.parser import HTMLParserclass MyHtmlStripper(HTMLParser): def __init__(self, s): super().__init__() self.sio = io.StringIO() self.feed...
复制链接

扫一扫