python的print对编码的处理

    python的print会对输出的文本做自动的编码转换,而文件对象的write方法就不会做,因此,当一些字符串用print输出正常时,write到文件确不一定和print的一样。
    print转换的目的编码和环境变量有关,Windows XP是转换为gbk的。在linux下是按照环境变量来转换的。在linux下使用locale命令就可以看到。比如我的是:
[zhaowei@papaya zhaowei]$ locale
LANG=zh_CN
LC_CTYPE="zh_CN"
LC_NUMERIC="zh_CN"
LC_TIME="zh_CN"
LC_COLLATE="zh_CN"
LC_MONETARY="zh_CN"
LC_MESSAGES="zh_CN"
LC_PAPER="zh_CN"
LC_NAME="zh_CN"
LC_ADDRESS="zh_CN"
LC_TELEPHONE="zh_CN"
LC_MEASUREMENT="zh_CN"
LC_IDENTIFICATION="zh_CN"
LC_ALL=
    这个时候会认为是gb2312的。在python中可以用locale模块来获得当前环境的编码:

import  locale

print  locale.getdefaultlocale()

    print在输出时把字符串自动装换为这个编码。看看下面,"喆"这个字是很著名的一个在gb2312中没有的字,当把它转换为gb2312的时候是会出错的。

# -*- encoding: gb18030 -*-
import  locale
import  sys, encodings, encodings.aliases

#  现在a是unicode的
=  u ' '

print  a.encode( " gb2312 " )

    上面这段代码会报异常,就是这个原因。但如果是直接 print a 就可以输出来 (假设你的环境变量是GBK或者GB18030或者UTF-8)。如果你的环境变量是GB2312的,那这个print一样会报错!所以在处理其他地方来的文本数据时,最好不要用GB2312的编码,是中文数据,一定要用GB18030或者UTF-8!
    而用文件对象的write写unicode的数据也是会出错的!需要做编码转换。

# -*- encoding: gb18030 -*-
import  locale
import  sys, encodings, encodings.aliases

#  现在a是unicode的
=  u ' '

=  open( " aaa.txt " " w " )
f.write(a)
f.close()


  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值