1.在最新的Python 3版本中,字符串是以Unicode编码的,也就是说,Python的字符串支持多语言,例
#测试python编码unicode支持多语言--中文
print('包含中文的str')
结果:包含中文的str
#测试ord函数获取字符编码
a=ord('A')
print(a)
b=ord('中')
print(b)
#测试chr函数:编码转换成字符
a=chr(66)
print(a)
b=chr(25991)
print(a)
print(b)
3.由于Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str变为以字节为单位的bytes。
Python对bytes类型的数据用带b前缀的单引号或双引号表示:
#讲str转换成以字节为单位
a='ABC'.encode('ascii')
print(a)
#这里只能是utf-8编码,不能是unicoe
b='中文'.encode('utf-8')
print(b)
#测试中文用ascii转比特,预想会报错
#c='中文'.encode('ascii')
#print(c)
总结:纯英文的str可以用ASCII编码为bytes,内容是一样的,含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码,因为中文编码的范围超过了ASCII编码的范围,Python会报错。
4.1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节。
在操作字符串时,我们经常遇到str和bytes的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行转换。