如何查看网页编码
我们可以右键查看网站源代码,在head里会包含这样一句话,chaeset
后面就是网页的编码,这里就是utf8的编码
<meta http-equiv=Content-Type content="text/html;charset=utf-8">
解决中文乱码问题
有的时候网站的编码是gbk或者gb2312,那么python抓取后结果是乱码,我们应该如何处理呢。我是查看了下面的链接的到了解答。链接如下。
【已解决】python中文字符乱码(GB2312,GBK,GB18030相关的问题)
解决的方法是这样的(下面是上面链接里的一段话):
请注意 gb2312 不是 “gb2312”,凡 gb2312 的请换成 gb18030.
微软将 gb2312 和 gbk 映射为 gb18030,方便了一些人,也迷惑了一些人。
我是通过上面这种方法解决了我python编码的问题的。
这里推广一下我的一个关于数学,mathematica和python教学的网站:文艺数学君
欢迎大家收藏我的网站并多多留言提出宝贵的意见。
当然你也可以联系我联系方式,给我投稿,希望在贡献者名单也可以看到你。
以上所有
2017 / 10 / 26