7.文本序列类型——str
文本数据在Python中以字符对象或字符串的形式存在。字符串是一个以Unicode编码形式存在的不可变序列,字符串文字可以由以下几种方式被写入:
(1)单引号,如:’ allowsembedded “double” quotes’
(2)双引号,如:” allowsembedded ‘single’ qutoes”
(3)三倍引号,如:’’’Threesingle qutoes’’’,”””Three double quotes”””
三倍引号定义的字符串内容可以跨行分布,但其中包含的空白也会被算入字符串文字以内。 如果字符串文字作为单个表达式的一部分,并且此时多个字符串文字间只被空格所分隔,那么这些字符串将会被隐式合并,就像:
(“spam” ”eggs”) == “spam eggs”
字符串也可以被其它对象使用str构造器创建。
由于不存在char类型,因此访问字符串中的单个字符时,会由字符串索引产生一个长度为1的索引区间,例如(s为非空字符串):s[0] == s[0:1]
由于不存在可变字符串类型,Python提供了str.join()与io.StringIo用以将多个字符片段合成为一个完整的字符串。
class str(object)
将object转化为字符串
7.1 字符串方法
所有的公共序列操作都可以操作字符串,此外,字符串还具有以下自身独有的方法:
str. capitalize()
返回字符串的一个副本,并将副本中的字符进行首字母大写、其余小写的归一化操作。
str. casefold()
返回该字符串的压缩副本,该副本消除了字符串中内容的大小写差异。该方法比lowercasing更加霸道。
str. center(width[, fillchar])
返回一个用width参数指定长度的字符串,该字符串以str为基础,若str的长度小于width,那么就在str的正中间用filchar字符填充(默认值为ASCLL编码空格),知道在总体长度达到要求;如果str的长度大于等于width,那么直接返回str本身。
str. count(sub[, start[, end]])
返回sub子串在str串中在非交叠情况下出现的次数,start和end参数决定选取str的范围。
str. encode(encoding=”utf-8”, errors=”strict”)
返回以encoding参数指定的编码方式编码的字节对象。
str. endswith(suffix[, start[, end]])
如果该字符串以suffix指定的后缀结尾,该方法返回True,否则返回False.
str. expandtabs(tabsize=8)
返回该字符串的副本,在该副本中所有的制表符将被空格符所代替。tabsize决定一个制表符代表几个空格符,默认是8,可选值为0,8,16。
str. find(sub[, start[, end]])
返回sub代表的子字符串在str中的最小索引值。start和and是用于设置索引寻找的范围。
str. format(*args, **kwargs)
执行字符串格式化操作。调用此方法的字符串可以包含由大括号{}分隔的文本(括号内的文本是将要被替换的字段)。每个替换字段包含位置参数的数字索引或关键字参数的名称。返回字符串的副本,其中每个替换字段将替换为相应参数的字符串值。
str. format_map(mapping)
类似于str. format(**mapping),只不过mapping不被直接使用并且也不会产生字典副本。
str. index(sub[, start[, end]])
类似于find(),但它会在找不到符合要求的索引时抛出ValueError。
str. isalnum()
如果该字符串不是空串且完全由字母构成,该方法返回True。
str. isalpha()
如果该字符串不是空串且完全由Unicode定义下的标准字母构成,该方法返回True。
str. isdecimal()
如果该字符串不是空串且完全由十进制数字组成,该方法返回True。
str. isdigit()
如果该字符串不是空串且完全由数字组成,该方法返回True。
str. isidentifer()
如果该字符串不是空串且完全由合法的语言标识符组成,该方法返回True。
str. islower()
如果该字符串不是空串且完全由小写字符组成,该方法返回True。
str.isnumeric()
如果该字符串不是空串且完全由数字字符组成,该方法返回True。
str.isprintable()
如果该字符串不是空串且完全由可被打印的字符组成,该方法返回True。
str.isspace()
如果该字符串不是空串且完全由空白字符组成,该方法返回True。
str.istitle()
如果该字符串不是空串且完全由标题类字符组成,该方法返回True。
str.isupper()
如果该字符串不是空串且完全由大写字符组成,该方法返回True。
str.join(iterable)
将存储于iterable对象内的各个分离字符串组合起来。如果iterable的元素中存在非字符串值,将会引发TypeError。
str.ljust(width[, fillchar])
返回str这个字符串中以最左端字符串为开始,长度为width的字符串片段。如果width的长度大于str的长度,将使用fillchar填充,直到长度满足要求。fillchar的默认值为ascii编码下的空格。
str.lower()
返回str字符串删除所有指定chars(单个或多个char参数)后的副本。如果chars没有给定,默认删除所有空格。
staticstr. maketrans(x[, y[, z]])
该静态方法可以返回一个可被str.translate()使用的翻译表。如果只有一个参数,该方法必须是一个将Unicode序数(整数)或字符(长度为1的字符串)映射为Unicode序号、字符串(任意长度)或None的字典。字符键将被转换为序号。如果有两个参数,它们必须是等长的字符串,并且在结果字典中,x中的每个字符将映射到y中相同位置的字符。如果有第三个参数,它必须是一个字符串,其字符将在结果中映射到None。
str.partition(sep)
将一个字符串从sep元素处(如果有多个选索引值最小的那个)分割为三部分,分别存储在三个元组内:分则元素前、分隔元素本身、分隔元素后。如果sep在字符串中不存在,则返回三个元组内容为字符串本身、以及讲个空元祖。
str. replace(old, new[, count])
如果count没有给出,该字符串中所有的old元素被替换为new;如果count被给出,那么只替换第count个old元素。
str.rfing(sub[, start[, end]])
返回sub在该字符串中最大的索引值;start与and指定搜索范围。
str.rindex(sub[, start[, end]])
类似于rfind(),但它会在找不到的情况下抛出ValueError。
str.rjust(width[, fillchar])
将字符串截取为width规定的长度,从头开始截取,不足的话用fillchar在末尾补,其默认值为ASCII空格。
str.rpartition(sep)
将字符串分为三个元组,以最后出现的sep为界限,之前、sep本身、之后。如果字符串中没有sep,那么前两个元组为空,最后一个为它本身。
str.rsplit(sep=None, maxsplit=-1)
使用sep作为分隔符字符串,返回字符串中单词的列表。如果给出maxsplit,则最多maxsplit分裂,最右边的分裂。如果未指定sep或None,则任何空白字符串都是分隔符。
str.rstrip([char])
返回该字符串移除尾随字符后的副本。char参数为字符串,他指定那些字符集应当被移除。如果char没有被写出,默认移除空格。char参数不应当是后缀。删除时从字符串串尾,若字符串内该字符存于删除字符集内,则删除,继续比较;如果不存在,停止删除,方法执行完毕。
str.split(sep=None, maxspilt=-1)
类似于rsplit()方法,只不过在maxspilt指定sep出现的第几次时进行操作,返回三个列表。分隔方式为:sep前、本身、他之后。
str.splitlines([keepends])
该方法将字符串中的各行分离出来,组成一个列表(该列表内无换行符),下列表中的字符组合被认为是行的边界:
表达结构 | 描述说明 |
\n | 换行 |
\r | 回车 |
\r\n | 回车加换行 |
\v或\x0b | 行制表符 |
\f或\x0c | 换页 |
\x1c | 文件分隔 |
\x1d | 组分隔 |
\x1e | 记录分隔 |
\x85 | 下一行 |
\u2028 | 行分隔 |
\u2029 | 页分隔 |
str.startswith(prefix[, start[, end]])
如果该字符串以prefix开头,该方法返回True,否则返回False。
str.strip([chars])
返回删除前导字符和尾随字符的字符串副本。chars内为要删除的字符集合,删除方法与rstrip()方法类似。
str.swapcase()
将字符串中的大写转为小写,小写转为大写。
str.title()
将字符串转化为标题字符串,即首字母大写。
str.translate(table)
返回通过给定转换表映射每个字符的字符串的副本。该表必须是通过__getitem __()实现索引的对象,通常是映射或序列。当通过Unicode序数(整数)索引时,表对象可以执行以下任何操作:返回Unicode序号或字符串,将字符映射为一个或多个其他字符; 返回None,从返回字符串中删除字符; 或者引发LookupError异常,将字符映射到自身。
str.upper()
将字符串内字符转化为大写。
str.zfill(width)
用ASCII’0’来填充字符串左端,使得其满足width指定的长度要求。但他会识别前导符(+或-),并不会讲0补在其前。
>>> "42".zfill(5)
'00042'
>>> "-42".zfill(5)
'-0042'
7.2 printf——字符串样式标准
字符串对象有一个独特的内置操作:%操作符,我们称为字符串格式化或插值运算符。给定格式%值(其中格式为字符串),格式中的%转换规格将被替换为你所指定的对象。
转换符包含两个或两个以上字符时,它需要遵守以下规则:
1. 符号%应当标记在转换符所需的位置;
2. 映射键(可选),由括号化的字符序列组成;
3. 转换标志(可选),影响某些转换类型的结果;
4. 最小字段宽度(可选)。如果指定为'*'(星号),则实际宽度将从值的下一个元素元素中读 取,并且要转换的对象位于最小字段宽度和可选精度之后;
5. 精度(可选),精度后面应当跟随“.”(点号)。如果指定为“*”(星号),那精度会从下一个值中读取;
6. 长度修改(可选);
7. 转换类型。
例如:
>>> print('%(language)s has %(number)03d quote types.'%
... {'language':"Python","number":2})
Python has 002 quote types.
下表列出转换标记字符:
字符 | 意义 |
# | 值转换符,使用转换类型 |
0 | 转换将为数字值填充0 |
- | 将转换的值向左调整,覆盖0 |
‘ ’ (空格) | 在由正确的数字(或空字符串)产生的有符号转换之前,空白应该留下。 |
+ | 符号字符('+'或' - ')将在转换之前(覆盖“空格”标志)。 |
转换类型表如下:
转换索引 | 意义 |
d | 有符号整数小数 |
i | 有符号整数小数 |
o | 有符号八进制值 |
u | 已过时的类型 - 与“d”相同(因此忘记它吧) |
x | 有符号十六进制小数(小写) |
X | 有符号十六进制小数(大写) |
e | 浮点指数格式(小写) |
E | 浮点指数格式(大写) |
f | 浮点数格式 |
F | 浮点数格式 |
g | 浮点格式。如果指数小于-4或小于精度,则使用小写指数格式,否则使用小数格式。 |
G | 浮点格式。 如果指数小于-4或小于精度,则使用小写指数格式,否则使用小数格式。 |
c | 单字符(接受整数和单字符字符串) |
r | 字符串(使用repr()转换) |
s | 字符串(使用str()转换) |
a | 字符串(使用ascii()转换) |
% | 没有参数被转换,结果为'%'字符。 |