响应解码错误
有些页面虽然是utf-8编码的,但是在使用utf-8解码的时候,却报错,说无法解码
这属于反爬机制:故意在页面中加入一些无法解码的字符
解决方式:
"""
#解码错误时,严格报错
1.res.content.decode("utf-8","strict")
#解码错误时,忽略
2.res.content.decode("utf-8","ignore")
#解码错误时,替换反斜杠
3.res.content.decode("utf-8","backslashreplace")
"""
若所有的解码方式都试过后,仍无法解码,考虑是否请求头有问题。。。,是否带了不该带的请求头
url不能有中文
urllib.request 需手动对中文编码
requests可以自动对中文编码