在我们爬虫的道路上,无疑会碰到网页的gbk编码格式,显示效果是怎样的呢
经过源码的查看,我发现次网站是以gbk方式编码,查过资料后,得出结论要经过gbk编码结果就没问题了,但编码格式有点特殊,有必要提一下。
通过requests.get得到的源码经过response.encoding=‘gbk’已经编码为简体字
之前由于习惯没用过response.encoding转码,后经过写入文件发现原来的方法写入不成。经过不断尝试,发现如下方法,二次编码写入文件,缺一不可。
ret = requests.get(url='https://search.51job.com/list/010000,000000,000