在读取中文的情况下,通常会遇到一些编码的问题,但是首先需要了解目前的编码方式是什么,然后再用decode或者encode去编码和解码,下面是使用chardet库来查看编码方式的。
importchardet
path1="2000_neg.txt"
path2="2000_pos.txt"
file1=open(path1,'rb')
file2=open(path2,'rb')
data1=file1.read()
data2=file2.read()
print(chardet.detect(data1))
print(chardet.detect(data2))
结果是:
{'language': 'Chinese', 'encoding': 'GB2312', 'confidence': 0.99}
{'language': 'Chinese', 'encoding': 'GB2312', 'confidence': 0.99}
中国汉字:gb2312---》gbk---》gb18030
国际上为统一文字,又发明了新的国际上统一的编码格式Unicode。Unicode在网络上的传输需要一个标准:UTF8,UTF16(按每次传输8bit的数据还是16bit的数据)
现在用的最多的是UTF8。
GB2312:6763个汉字
GBK:21003个汉字
GB18030-2000:27533个汉字
GB18030-2005:70244个汉字
示例:当查询到当前文件是gb2312时,在处理前,既需要使用gb2312编码打开,然后写入时需要用utf-8写入,这样后续处理就都是按照UTF8处理,不会出现混乱。,所以这里使用codecs的好处就是直接按照文件编码格式读入,会自动转化为Unicode格式。所以这里就将文件转化为utf8
f=codecs.open(sourceFile,'r',encoding='gbk')
target=codecs.open(targetFile,'w',encoding='utf-8')