pycharm爬虫打印网页出现中文乱码问题

pycharm爬虫打印网页出现中文乱码问题


今天爬了一天的微博,到现在还没有成功。期间也出现了打印页面中文显示乱码问题。

html=session.get(url)
print(html.text)

如果直接打印的话就会出现这样的结果

 <p class="label" id = "uctext">ʹÓÃ<span id = "ucname"></span>µÄÉí·ÝµÇ¼ÍøÒ³°æ΢²©</p>
    <p class="label" id = "weibotext">¼ì²âµ½ÄúÒÑÔÚ΢²©¿Í»§¶ËµÇ¼<br>ÊÇ·ñ»ñÈ¡¸ÃµÇ¼״̬£¿</p>
    <a href="javascript:;" class="btn btnRed" id = "ucORweiboLogin">È·ÈÏ</a>

这个问题真的卡了好久,后来找了各种文章,原来是网页编码问题。

print(html.encoding)
ISO-8859-1

发现编码是ISO-8859-1形式的,我们需要改为gbk格式的就能正常显示了

html=session.get(url)
#pycharm解决爬虫中文乱码问题
html.encoding = 'GBK'
print(html.encoding)
  <div id="errorMsg" class="error-label" style = "display:none">手机号不能为空</div>
        <a href="javascript:;" class="btn btnRed" id = "loginAction">登录</a>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值