Python lxml提取html标签内容 html.tostring中文乱码解决

解决方式:导入html.parser中的HTMLParser库 这个库好像过期了 但是还是可以用
最新解决方法:导入html
from html.parser import HTMLParser 
或者
import html 

 代码详细:

 with urllib.request.urlopen( '这里是要获取的URL') as f:
        data = f.read()
        document = data.decode('utf-8')
        doc = etree.HTML(document)
        name = doc.xpath('获取指定位置的html')
        name1 = html.tostring(name[0])
        # 这里的name1 取出的html 中文存在乱码,下面 HTMLParser()或者html进行转换
        name2 = html.unescape(name1.decode()) 最新 完美使用
        #name2 = HTMLParser().unescape(name1.decode()) 过期 仍可以使用,但是会提示警告
        #print(name2)
       

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值