1、Python内部默认是使用unicode存储内容的;
2、python解析器读取源文件,默认是使用ascii编码的,如果文件中存在中文,则会报错,形如:
SyntaxError: Non-ASCII character '\xe5' in file f:/workspace/test.py
此时可以在源文件开头加上支持中文的编码声明:#coding:gbk 或者 #coding:utf-8
需要注意的是,windows命令行的默认编码是gbk,所以当你使用 #coding:utf-8时,在命令行显示的内容与实际内容是不同的。
例如:
#coding:utf-8
s1 = '哈'
print(s1)
在命令行显示的结果是:鍝
3、str与unicode
str其实是字节串,它是unicode经过编码后的字节组成的序列。
#coding:utf-8 s1 = '哈'#哈 按着utf-8编码进行保存 print(type(s1)) #str print(len(s1)) #结果是3 '\xe5\x93\x88' s2 = u'哈' #哈按着unicode编码进行保存 print(type(s2)) #unicode print(len(s2)) #结果是1
python对于unicode对象print的时候,会根据终端编码进行自适应。所以使用unicode输出时肯定能得到你想要的结果。
上面的u'哈' 等同与 unicode('哈','utf-8') 或者 '哈'.decode('utf-8')
4、str和repr
函数str() 用于将值转化为适于人阅读的形式,而repr() 转化为供解释器读取的形式。
h = "hello\n"
print(h) #hello
print(repr(h)) #'hello\n'
print(eval(repr(h))) #hello
5、打印list对象等
ls1 = ["哈","哈1"]
for x in ls1:
print(x)
print(ls1)
输出结果为:
哈
哈1
["\xe5\x93\x88", '\xe5\x93\x881']
可见直接print一个list,输出结果是repr的内容。
那如何直接print一个list的时候直接显示中文呢?
可以使用:
print(str(ls1).decode("string_escape"))
输出的结果就是:['哈', '哈1']
其中"string_escape"就是要按照人熟悉的方式显示出来。还有类似的"unicode_escape"。