一、背景
之前写一个自动化脚本,处理RPC接口返回,一直被转码困扰,现在回忆起来,试着看下究竟。
Python中字符串以Unicode编码,支持多语言。
Unicode编码的字符串可以通过encode来编码成其他编码(如utf-8,gbk),通过decode来做对应的解码。
>>> u"测试"
u'\u6d4b\u8bd5'
>>> u"测试".encode("utf-8")
'\xe6\xb5\x8b\xe8\xaf\x95'
>>> u"测试".encode("gbk")
'\xb2\xe2\xca\xd4'
如果对非unicode编码的字符串做encode则会出现:
>>> u"测试".encode("utf-8").encode("gbk")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(