全网最适合入门的面向对象编程教程：53 Python字符串与序列化-字符串与字符编码

本文档主要介绍如何使用 Python 进行面向对象编程，需要读者对 Python 语法和单片机开发具有基本了解。相比其他讲解 Python 面向对象编程的博客或书籍而言，本文档更加详细、侧重于嵌入式上位机应用，以上位机和下位机的常见串口数据收发、数据处理、动态图绘制等为应用实例，同时使用 Sourcetrail 代码软件对代码进行可视化阅读便于读者理解。

相关示例代码获取链接如下：https://github.com/leezisheng/Python-OOP-Demo

正文

字符串与字符编码

字符串是 Python 中的基本类型，它所代表的是一组不可变的字符（即无法直接修改字符串的某一索引对应的字符，需要转换为列表处理），某种程度上可以认为字符串是特殊的元组类型。

Python 中的字符串都是通过 Unicode 表示的，Unicode 是一个字符编码标准，那么什么是字符编码标准呢？**实际上，在计算机科学中，数据的处理与存储均基于二进制系统。对于文本信息的处理，需先将其转化为数字形式以适应计算机的运算逻辑。**在计算机体系结构中，早期的设计以 8 位二进制数，即一字节，作为基本单位。数字形式以适应计算机的运算逻辑。在计算机体系结构中，早期的设计以 8 位二进制数，即一字节，作为基本单位。因此，一个字节所能表示的最大整数值为 255，这是由二进制数 11111111 转化为十进制数得出的结果。对于更大整数的表示，则需通过增加字节数来实现。例如，两个字节可表示的最大整数值为 65535，而四个字节则可表示的最大整数值高达 4294967295。

鉴于计算机技术的发源地是美国，**早期的字符编码主要基于 ASCII 标准，仅涵盖 127 个字符，包括大小写英文字母、数字和一些常用符号。**然而，对于非英文字符，如中文，单个字节的编码方式显然不足以满足需求。为此，中国制定了 GB2312 编码标准，采用至少两个字节的编码方式来表示中文字符，并确保与 ASCII 编码的兼容性。在全球范围内，不同的语言和文化背景导致了多样化的编码标准，如日本的 Shift_JIS 和韩国的 Euc-kr。这些不同的编码标准在多语言混合的文本环境中可能导致显示乱码的问题。**Unicode 又被称为统一码、万国码；它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。**从这个角度来讲，我们可以把字符串看作一个不可变的 Unicode 字符序列。

**Unicode 标准详细阐释了字符如何以码位（code point）的形式进行表达。**码位的取值范围限定在 0 至 0x10FFFF 的整数范围内，理论上涵盖了大约 110 万个可能的值，但实际分配的数字并未达到这一规模。在 Unicode 标准以及本文的论述中，码位采用 U+265E 的表述方式，用以指代值为 0x265e 的字符，其十进制表示为 9822。

此外，Unicode 标准汇编了众多表格，这些表格详尽地列出了众多字符及其对应的码位信息。

上一段可以归结为：一个 Unicode 字符串是一系列码位（从 0 到 0x10FFFF 或者说十进制的 1,114,111 的数字）组成的序列。这一序列在内存中需被表示为一组码元（code unit），码元会映射成包含八个二进制位的字节。将 Unicode 字符串翻译成字节序列的规则称为字符编码，或者编码。

大家首先会想到的编码可能是用 32 位的整数作为代码位，然后采用 CPU 对 32 位整数的表示法。字符串“Python”用这种表示法可能会如下所示：

这种表示法非常直白，但也存在一些问题：

（1）不具可移植性；不同的处理器的字节序不同；
（2）非常浪费空间：在大多数文本中，大部分码位都小于 127 或 255，因此字节 0x00 占用了大量空间。相较于 ASCII 表示法所需的 6 个字节，以上字符串需要占用 24 个字节；
（3）与现有的 C 函数（如 strlen()）不兼容，因此需要采用一套新的宽字符串函数。

因此这种编码用得不多，人们转而选择其他更高效、更方便的编码，比如 UTF-8。UTF-8 是最常用的编码之一，Python 往往默认会采用它。UTF 代表“Unicode Transformation Format”，'8’表示编码采用 8 位数。

UTF-8 编码把一个 Unicode 字符根据不同的数字大小编码成 1-6 个字节，常用的英文字母被编码成 1 个字节，汉字通常是 3 个字节，只有很生僻的字符才会被编码成 4-6 个字节。如果你要传输的文本包含大量英文字符，用 UTF-8 编码就能节省空间。UTF-8 编码还有一个额外的好处，就是 ASCII 编码实际上可以被看成是 UTF-8 编码的一部分，所以，大量只支持 ASCII 编码的历史遗留软件可以在 UTF-8 编码下继续工作。

实际上，Unicode 可使用下列任何一种字符编码方案来编码：

（1）**UTF-8 ：UTF-8 是 Unicode 的一种可变长度编码形式，它透明地保留了 ASCII 字符代码值。**该形式在 Solaris Unicode 语言环境中用作文件代码。
（2）**UTF-16：UTF-16 是 Unicode 的一种 16 位编码形式。在 UTF-16 中，多达 65,535 个字符被编码为单个 16 位值。**映射在 65,535 到 1,114,111 的字符被编码为成对的 16 位值（代理）。
（3）**UTF-32：UTF-32 是 Unicode 的一种固定长度的 21 位编码形式，通常用在 32 位容器或数据类型中。**该形式在 Solaris Unicode 语言环境中用作进程代码（宽字符代码）。

字符串常见操作

从 Python 3.0 开始，str 类型包含了 Unicode 字符，这意味着用"unicode rocks!"、‘unicode rocks!’ 或三重引号字符串语法创建的任何字符串都会存储为 Unicode。

需要注意的是，Python 不支持单字符类型，单字符在 Python 中也是作为一个字符串使用。

str 类拥有大量的方法，使得字符串的操作更加简单。通过 Python 解释器中的 dir 和 help 指令可以得知所有方法的用法。

print(help(str))

**这里对于字符串的基本方法应用和运算不做赘述，仅在下文中总结一个文档。本章重点在于帮助大家了解字符编码、序列化对象及应用正则表达式解析字符串并匹配任意模式。**下表中我们列出来 str 类的常见方法和作用。

方法	作用
lower\upper	返回 S 字符串的小写、大写格式。对于以下背景为蓝色、红色的这些方法，需要注意输入的字符串是不会被改变的，而是返回一个全新的 str 实例。
title\capital	前者返回 S 字符串中所有单词首字母大写且其他字母小写的格式，后者返回首字母大写、其他字母全部小写的新字符串。
swapcase	swapcase()对 S 中的所有字符串做大小写转换(大写–> 小写，小写–> 大写)。
istitle	注意它并不会严格执行英语语法定义中的标题格式，例如，Leigh Hunt 的诗 The Glove and the Lions 应该是一个合法的标题，尽管它并不是所有单词的首字母都大写了。Robert Service 的 The Gremation of Sam McGee 也是一个合法的标题，尽管最后一个单词中间含有大写字母。
isdecimal	检查字符串是否只包含十进制字符。字符串中若只包含十进制字符返回 True，否则返回 False。该方法只存在于 unicode 对象中。注意:定义一个十进制字符串，只需要在字符串前添加前缀 ‘u’ 即可。
isdigit	检测字符串是否只由数字组成，字符串中至少有一个字符且所有字符都是数字则返回 True,否则返回 False。
Isnumeric	检测字符串是否只由数字组成。这种方法是只适用于 unicode 对象。字符串中只包含数字字符，则返回 True，否则返回 False。在使用 isdigit、isdecimal 和 isnumeric 方法时要注意许多 Unicode 字符也被认为是数字，而不仅仅是我们习惯使用的 10 个阿拉伯数字。更糟的是，我们用小数点组成的浮点数在字符串中并不会被认为是小数，因此对于’45.2’来说，isdecimal()返回的是 False。真正的小数点字符 Unicode 中的值是 0660，因此 45.2 应该是 45\u06602。再者，这些方法不会验证字符串是否是合法的数字，对于"127.0.0.1"来说这 3 个方法都会返回 True。
isalnum	检测字符串是否由字母和数字组成。str 中至少有一个字符且所有字符都是字母或数字则返回 True,否则返回 False。
isalpha	检测字符串是否只由字母组成。字符串中至少有一个字符且所有字符都是字母则返回 True,否则返回 False。
Center(width[, fillchar])	将字符串居中，左右两边使用 fillchar 进行填充，使得整个字符串的长度为 width。fillchar 默认为空格。如果 width 小于字符串的长度，则无法填充直接返回字符串本身(不会创建新字符串对象)。
ljust/rjust	ljust()使用 fillchar 填充在字符串 S 的右边，使得整体长度为 width。rjust()则是填充在左边。如果不指定 fillchar，则默认使用空格填充。如果 width 小于或等于字符串 S 的长度，则无法填充，直接返回字符串 S(不会创建新字符串对象)。
zfill	用 0 填充在字符串 S 的左边使其长度为 width。如果 S 前右正负号 +/- ，则 0 填充在这两个符号的后面，且符号也算入长度。如果 width 小于或等于 S 的长度，则无法填充，直接返回 S 本身(不会创建新字符串对象)。
Count(sub[, start[, end]])	返回字符串 S 中子串 sub 出现的次数，可以指定从哪里开始计算(start)以及计算到哪里结束(end)，索引从 0 开始计算，不包括 end 边界。
endswith/startswith	endswith() 检查字符串 S 是否已 suffix 结尾，返回布尔值的 True 和 False。suffix 可以是一个元组(tuple)。可以指定起始 start 和结尾 end 的搜索边界。同理 startswith()用来判断字符串 S 是否是以 prefix 开头。
find\rfind\index\rindex	find()搜索字符串 S 中是否包含子串 sub，如果包含，则返回 sub 的索引位置，否则返回"-1"。可以指定起始 start 和结束 end 的搜索位置。index()和 find()一样，唯一不同点在于当找不到子串时，抛出 ValueError 错误。rfind()则是返回搜索到的最右边子串的位置，如果只搜索到一个或没有搜索到子串，则和 find()是等价的。
Translate\maketrans	str.maketrans()生成一个字符一一映射的 table，然后使用 translate(table)对字符串 S 中的每个字符进行映射。可以用该方法实现字符串的简单加密。注意，maketrans(x[, y[, z]]) 中的 x 和 y 都是字符串，且长度必须相等。
partition(sep)/rpartition(sep)	搜索字符串 S 中的子串 sep，并从 sep 处对 S 进行分割，最后返回一个包含 3 元素的元组：sep 左边的部分是元组的第一个元素，sep 自身是元组的二个元素，sep 右边是元组的第三个元素。partition(sep) 从左边第一个 sep 进行分割， rpartition(sep) 从右边第一个 sep 进行分割。如果搜索不到 sep，则返回的 3 元素元组中，有两个元素为空。partition()是后两个元素为空，rpartition()是前两个元素为空。以下几个字符串方法返回或作用于字符串。
Split(sep=None,maxsplit=-1)Rsplit(sep=None,maxsplit=-1)Splitlines([keepends])	都是用来分割字符串，并生成一个列表。split()根据 sep 对 S 进行分割，maxsplit 用于指定分割次数，如果不指定 maxsplit 或者给定值为"-1"，则会从做向右搜索并且每遇到 sep 一次就分割直到搜索完字符串。如果不指定 sep 或者指定为 None，则改变分割算法：以空格为分隔符，且将连续的空白压缩为一个空格。rsplit()和 split() 是一样的，只不过是从右边向左边搜索。splitlines()用来专门用来分割换行符。可以指定各种换行符，常见的是\n、\r、\r\n 。如果指定 keepends 为 True，则保留所有的换行符。
join(iterable)	将可迭代对象(iterable)中的字符串使用 S 连接起来。注意，iterable 中必须全部是字符串类型，否则报错。它接受一个字符串列表作为参数，并返回列表中所有字符串通过原始字符串连接起来之后的字符串。
strip\lstrip\rstrip	分别是移除左右两边、左边、右边的字符 char。如果不指定 chars 或者指定为 None，则默认移除空白(空格、制表符、换行符)。唯一需要注意的是，chars 可以是多个字符序列。在移除时，只要是这个序列中的字符，都会被移除。
replace(old, new, count)	把 str 中的 old 替换成 new,如果 count 指定，则替换不超过 count 次.。
expandtabs(N)	将字符串 S 中的\t 替换为一定数量的空格。默认 N=8。注意， expandtabs(8)不是将\t 直接替换为 8 个空格。例如 ‘xyz\tab’.expandtabs() 会将\t 替换为 5 个空格，因为"xyz"占用了 3 个字符位。另外，它不会替换换行符( \n 或 \r )时。