python的print对编码的处理

最新推荐文章于 2024-05-23 21:02:44 发布

zhaoweikid

最新推荐文章于 2024-05-23 21:02:44 发布

阅读量2.3w

点赞数 1

分类专栏： Python其他文章标签： python import linux windows xp

本文链接：https://blog.csdn.net/zhaoweikid/article/details/1662280

版权

Python其他专栏收录该内容

9 篇文章 0 订阅

订阅专栏

    python的print会对输出的文本做自动的编码转换，而文件对象的write方法就不会做，因此，当一些字符串用print输出正常时，write到文件确不一定和print的一样。
    print转换的目的编码和环境变量有关，Windows XP是转换为gbk的。在linux下是按照环境变量来转换的。在linux下使用locale命令就可以看到。比如我的是：
[zhaowei@papaya zhaowei]$ locale
LANG=zh_CN
LC_CTYPE="zh_CN"
LC_NUMERIC="zh_CN"
LC_TIME="zh_CN"
LC_COLLATE="zh_CN"
LC_MONETARY="zh_CN"
LC_MESSAGES="zh_CN"
LC_PAPER="zh_CN"
LC_NAME="zh_CN"
LC_ADDRESS="zh_CN"
LC_TELEPHONE="zh_CN"
LC_MEASUREMENT="zh_CN"
LC_IDENTIFICATION="zh_CN"
LC_ALL=
    这个时候会认为是gb2312的。在python中可以用locale模块来获得当前环境的编码：

import locale

print locale.getdefaultlocale()

print在输出时把字符串自动装换为这个编码。看看下面，"喆"这个字是很著名的一个在gb2312中没有的字，当把它转换为gb2312的时候是会出错的。

# -*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases

# 现在a是unicode的
a = u ' 喆 '

print a.encode( " gb2312 " )

上面这段代码会报异常，就是这个原因。但如果是直接 print a 就可以输出来（假设你的环境变量是GBK或者GB18030或者UTF-8）。如果你的环境变量是GB2312的，那这个print一样会报错！所以在处理其他地方来的文本数据时，最好不要用GB2312的编码，是中文数据，一定要用GB18030或者UTF-8!
而用文件对象的write写unicode的数据也是会出错的！需要做编码转换。

# -*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases

# 现在a是unicode的
a = u ' 喆 '

f = open( " aaa.txt " , " w " )
f.write(a)
f.close()

zhaoweikid

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python的print对编码的处理

python的print会对输出的文本做自动的编码转换，而文件对象的write方法就不会做，因此，当一些字符串用print输出正常时，write到文件确不一定和print的一样。 print转换的目的编码和环境变量有关，Windows XP是转换为gbk的。在linux下是按照环境变量来转换的。在linux下使用locale命令就可以看到。比如我的是：[zhaowei@papaya
复制链接

扫一扫