python去除html所有标签的方法

import re
from bs4 import BeautifulSoup
from lxml import etree
     html = '''
    <div id="info">
    <span ><span class='pl'>导演</span>: <span class='attrs'><a>郭帆</a></span></span><br/>
    <span ><span class='pl'>编剧</span>: <span class='attrs'><a >郭帆</a></span></span><br/>
    <span class="pl">制片国家/地区:</span> 中国大陆<br/>
    <span class="pl">语言:</span> 汉语普通话 / 俄语 / 英语 / 印地语 / 法语<br/>
    <span class="pl">上映日期:</span> <span >2023-01-22(中国大陆)</span><br/>
    <span class="pl">片长:</span> <span>173分钟</span><br/>
    <span class="pl">又名:</span> The Wandering Earth Ⅱ / The Wandering Earth 2 / 《流浪地球》前传<br/>
    <span class="pl">IMDb:</span> tt13539646<br>
    </div>
    '''

    # 方法一
    pattern = re.compile(r'<[^>]+>', re.S)
    result = pattern.sub('', html)
    print(f"正则去除:{result}")

    # 方法二
    soup = BeautifulSoup(html, 'html.parser')
    print(f"BeautifulSoup去除:{soup.get_text()}")

    # 方法三
    response = etree.HTML(text=html)
    # print(dir(response))
    print(f"etree去除:{response.xpath('string(.)')}")

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值