python爬虫学习1:urlopen(),decode(),“utf-8 codec can‘t decode byte 0x”报错

urllib.request.urlopen()函数用于实现对目标url的访问。

函数原为:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url是需要打开的网址;
data是Post提交的数据;
timeout:设置网站的访问超时时间。
urlopen()获取页面,得到page的数据格式为bytes类型,需要decode()解码,转换成str类型。

代码示例:

import urllib.request
# urlopen()向URL发请求,返回响应对象,注意url必须完整
url="https://www.qq.com/"
response=urllib.request.urlopen(url)
print(response)

输出为:

如果需要解码输出,需要用到decode(),decode()方法语法:

str.decode(encoding=‘UTF-8’,errors=‘strict’)
encoding – 要使用的编码,如"UTF-8"。
errors – 设置不同错误的处理方案。默认为 ‘strict’,意为编码错误引起一个UnicodeError。 其他可能得值有 ‘ignore’, ‘replace’, ‘xmlcharrefreplace’, ‘backslashreplace’ 以及通过 codecs.register_error() 注册的任何值。

重新写代码:

import urllib.request
# urlopen()向URL发请求,返回响应对象,注意url必须完整
url="http://www.baidu.com/"
response=urllib.request.urlopen(url)
html = response.read().decode('utf-8')
print(html)

运行可以看到会输出html代码,但你访问QQ网站可能会出现下面问题:
在这里插入图片描述
出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。例如:

html = response.read().decode('utf-8',"ignore")

第二种解决方法是修改字符集参数,一般这种情况国标码(GBK)和utf8之间选择出现了问题,代码如下:

import urllib.request
# urlopen()向URL发请求,返回响应对象,注意url必须完整
url="https://www.qq.com/"
response=urllib.request.urlopen(url)
html = response.read().decode('gbk')#因为gbk兼容iso和utf,先按gbk解码  
html = html.encode('utf-8')   #需要的话可以再用utf格式编码
print(html)

这是输出的部分截图:
在这里插入图片描述
小知识点:

bytes = response.read() # read()返回结果为 bytes 数据类型
string = response.read().decode() # decode()将字节串转换为 string 类型
url = response.geturl() # 返回响应对象的URL地址
code = response.getcode() # 返回请求时的HTTP响应码
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

<编程路上>

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值