本文基于Python2.7.10,编译器使用pycharm
1.如果你的网页是神之编码方式,一般在文档的开头会写着charset="UTF-8"
在文件开头写上:
<span style="font-family:Comic Sans MS;color:#FF0000;"><strong>import sys
reload(sys)
sys.setdefaultencoding('utf-8')</strong></span>
如果还不过瘾,那么在文件开头加上
<span style="font-family:Comic Sans MS;"># -*- coding=UTF-8 -*-</span>
好了, 好不容易可以正常的从网页上抓数据了,在pycharm里面又显示错误。
请打开file-settings-file encodings
一般默认是跟随系统的编码方式 Windows是GBK,现在改成UTF-8就行了。
不小心发现写入的TXT和csv文件居然是乱码
请机智的去百度怎么修改TXT默认打开编码方式,或者新建一个TXT,从中打开文件时候可以选择编码方式。
关于csv,惊人的发现把打开方式改为记事本,然后一堆乱码分分钟变成了人类语言。再点保存为TXT,然而最后的结果还是csv,妥妥的简单粗暴。