pycharm爬虫打印网页出现中文乱码问题
今天爬了一天的微博,到现在还没有成功。期间也出现了打印页面中文显示乱码问题。
html=session.get(url)
print(html.text)
如果直接打印的话就会出现这样的结果
<p class="label" id = "uctext">ʹÓÃ<span id = "ucname"></span>µÄÉí·ÝµÇ¼ÍøÒ³°æ΢²©</p>
<p class="label" id = "weibotext">¼ì²âµ½ÄúÒÑÔÚ΢²©¿Í»§¶ËµÇ¼<br>ÊÇ·ñ»ñÈ¡¸ÃµÇ¼״̬£¿</p>
<a href="javascript:;" class="btn btnRed" id = "ucORweiboLogin">È·ÈÏ</a>
这个问题真的卡了好久,后来找了各种文章,原来是网页编码问题。
print(html.encoding)
ISO-8859-1
发现编码是ISO-8859-1形式的,我们需要改为gbk格式的就能正常显示了
html=session.get(url)
#pycharm解决爬虫中文乱码问题
html.encoding = 'GBK'
print(html.encoding)
<div id="errorMsg" class="error-label" style = "display:none">手机号不能为空</div>
<a href="javascript:;" class="btn btnRed" id = "loginAction">登录</a>