Python爬取网页之后返回的数据类型时byte类型,当你想要再爬取网页上的其他数据时,就需要解码为字符串,在获取相应数据的url,在写入文件中,所以我们就一定要搞清楚你爬取网页的编码格式然后用相应的格式来解码。这时就需要用到 decode函数,也就是把爬取到的byte类型数据转换为字符串。
直接看下面的例子吧:
import sys
str = '编码测试'
print('系统当前编码格式:',sys.getdefaultencoding())
str_byte = str.encode('utf-8');
print(type(str_byte))
print(str_byte)
str_str = str_byte.decode('utf-8')
print(type(str_str))
print(str_str)