在爬取中文网站时,爬回来的结果很容易出现乱码:
让人很恼火。
明明已经唾手可得了,偏偏无处下嘴,哈哈!
想在requests.get()函数里面添加一下decode,Python又报错了。
在网上找了一大堆资料,终于解决了。
代码就两行,如下:
res = requests.get(url_base, headers=headers, params=params).content.decode('utf-8')
docum = BeautifulSoup(res, 'lxml')
这样就能解决问题了,最后输出的终端结果为:
总算看到中文字了,从来没有对中文字符有如此亲切的感觉~
大家还有其他更简单的妙招吗?