利用python读写中文txt时,时常会遇见中文乱码的问题。
报错信息如下:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xaa in position 2: illegal multibyte sequence
经过小编多次的实验发现,以下这些步骤全部涉及,读写txt乱码问题肯定能行(有例外俺再改改哈哈)
1.python文件的头头加上这一条注释。
#encoding:utf-8
2.将其放在读写语句前面就行
try:
reload(sys)
sys.setdefaultencoding('utf-8')
except:
pass
3.打开读文件的时候要“utf-8”
open(ARTICLE_DIR,encoding='utf-8') as out:
4.打开写文件的时候也要“utf-8”
mid_out = open(SENTENCE_FILE, 'w',encoding="utf-8")
5.如果还是不行,同时你的文件中英混杂,但你只想要中文,还可以:
open(TEST_FILE,encoding = "GB2312",errors='ignore'):
GB2312是简体中文的编码方式。
就这么简单!!!!!