python字符编码和字符串重点（廖雪峰python）

zyupupup

于 2019-07-24 18:06:28 发布

阅读量122

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/zyupupup/article/details/97136186

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

变量本身类型不固定的语言称之为动态语言，与之对应的是静态语言。静态语言在定义变量时必须指定变量类型，如果赋值的时候类型不匹配，就会报错。例如Java是静态语言。

ASCII编码是1个字节，而Unicode编码通常是2个字节

字母A用ASCII编码是十进制的65，二进制的01000001，ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此，A的Unicode编码是00000000 01000001。

如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。

所以，本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言

对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

Python对bytes类型的数据用带b前缀的单引号或双引号表示

注意区分'ABC'和b'ABC'，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符都只占用一个字节。

以Unicode表示的str通过encode()方法可以编码为指定的bytes

要计算str包含多少个字符，可以用len()函数：

len()函数计算的是str的字符数，如果换成bytes，len()函数就计算字节数：

%运算符就是用来格式化字符串的。在字符串内部，%s表示用字符串替换，%d表示用整数替换，有几个%?占位符，后面就跟几个变量或者值，顺序要对应好。如果只有一个%?，括号可以省略。

常见的占位符有：

占位符	替换内容
%d	整数
%f	浮点数
%s	字符串
%x	十六进制整数

另一种格式化字符串的方法是使用字符串的format()方法，它会用传入的参数依次替换字符串内的占位符{0}、{1}……，不过这种方式写起来比%要麻烦得多：

zyupupup

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python字符编码和字符串重点（廖雪峰python）

变量本身类型不固定的语言称之为动态语言，与之对应的是静态语言。静态语言在定义变量时必须指定变量类型，如果赋值的时候类型不匹配，就会报错。例如Java是静态语言。ASCII编码是1个字节，而Unicode编码通常是2个字节字母A用ASCII编码是十进制的65，二进制的01000001，ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此，A的Unicode编码是0000000...
复制链接

扫一扫