python-基础语法-字符编码（未完成）_python代码未完成标记-CSDN博客

1.在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言，例

#测试python编码unicode支持多语言--中文
print('包含中文的str')

结果：包含中文的str


#测试ord函数获取字符编码
a=ord('A')
print(a)

b=ord('中')
print(b)

#测试chr函数：编码转换成字符

a=chr(66)

print(a)
b=chr(25991)

print(a)
print(b)

3.由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

Python对bytes类型的数据用带b前缀的单引号或双引号表示：


#讲str转换成以字节为单位
a='ABC'.encode('ascii')
print(a)
#这里只能是utf-8编码，不能是unicoe
b='中文'.encode('utf-8')
print(b)

#测试中文用ascii转比特，预想会报错
#c='中文'.encode('ascii')
#print(c)

总结：纯英文的str可以用ASCII编码为bytes，内容是一样的，含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码，因为中文编码的范围超过了ASCII编码的范围，Python会报错。

4.1个中文字符经过UTF-8编码后通常会占用3个字节，而1个英文字符只占用1个字节。

在操作字符串时，我们经常遇到str和bytes的互相转换。为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。