python编码问题总结

1、Python内部默认是使用unicode存储内容的;

2、python解析器读取源文件,默认是使用ascii编码的,如果文件中存在中文,则会报错,形如:

SyntaxError: Non-ASCII character '\xe5' in file f:/workspace/test.py

此时可以在源文件开头加上支持中文的编码声明:#coding:gbk 或者 #coding:utf-8

需要注意的是,windows命令行的默认编码是gbk,所以当你使用 #coding:utf-8时,在命令行显示的内容与实际内容是不同的。

例如:

	#coding:utf-8
	s1 = '哈'
	print(s1)

在命令行显示的结果是:鍝

3、str与unicode

str其实是字节串,它是unicode经过编码后的字节组成的序列。

#coding:utf-8
s1 = '哈'#哈 按着utf-8编码进行保存
print(type(s1)) #str
print(len(s1))  #结果是3 '\xe5\x93\x88'
s2 = u'哈'  #哈按着unicode编码进行保存
print(type(s2)) #unicode
print(len(s2))   #结果是1

 
 

  python对于unicode对象print的时候,会根据终端编码进行自适应。所以使用unicode输出时肯定能得到你想要的结果。

  上面的u'哈' 等同与 unicode('哈','utf-8') 或者 '哈'.decode('utf-8')

4、str和repr

  函数str() 用于将值转化为适于人阅读的形式,而repr() 转化为供解释器读取的形式。

h = "hello\n"
print(h)   #hello
print(repr(h)) #'hello\n'  
print(eval(repr(h))) #hello

5、打印list对象等

ls1 = ["哈","哈1"]
for x in ls1:
    print(x)
print(ls1)
输出结果为:


哈1
["\xe5\x93\x88", '\xe5\x93\x881']

可见直接print一个list,输出结果是repr的内容。

那如何直接print一个list的时候直接显示中文呢?

可以使用:

print(str(ls1).decode("string_escape"))

输出的结果就是:['哈', '哈1']

其中"string_escape"就是要按照人熟悉的方式显示出来。还有类似的"unicode_escape"。

 
 



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值