解决python因为中文编码问题出现乱码

在读取中文的情况下,通常会遇到一些编码的问题,但是首先需要了解目前的编码方式是什么,然后再用decode或者encode去编码和解码,下面是使用chardet库来查看编码方式的。

importchardet

path1="2000_neg.txt"

path2="2000_pos.txt"

file1=open(path1,'rb')

file2=open(path2,'rb')

data1=file1.read()

data2=file2.read()

print(chardet.detect(data1))

print(chardet.detect(data2))

 

结果是:

{'language': 'Chinese', 'encoding': 'GB2312', 'confidence': 0.99}

{'language': 'Chinese', 'encoding': 'GB2312', 'confidence': 0.99}

中国汉字:gb2312---》gbk---》gb18030

国际上为统一文字,又发明了新的国际上统一的编码格式Unicode。Unicode在网络上的传输需要一个标准:UTF8,UTF16(按每次传输8bit的数据还是16bit的数据)

现在用的最多的是UTF8。

GB2312:6763个汉字

GBK:21003个汉字

GB18030-2000:27533个汉字

GB18030-2005:70244个汉字

 

示例:当查询到当前文件是gb2312时,在处理前,既需要使用gb2312编码打开,然后写入时需要用utf-8写入,这样后续处理就都是按照UTF8处理,不会出现混乱。,所以这里使用codecs的好处就是直接按照文件编码格式读入,会自动转化为Unicode格式。所以这里就将文件转化为utf8

                                       f=codecs.open(sourceFile,'r',encoding='gbk')

                                       target=codecs.open(targetFile,'w',encoding='utf-8')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值