Python基础教程——使用字符串
使用字符串
字符串基本操作
所有标准序列操作(索引、切片、乘法、成员资格检查、长度、最小值和最大值)都适用于字符串。
但字符串是不可变的,因此所有的元素赋值和切片赋值都是非法的。
>>> website = 'http://www.python.org'
>>> website[-3:] = 'com'
Traceback (most recent call last):
File "<pyshell#278>", line 1, in <module>
website[-3:] = 'com'
TypeError: 'str' object does not support item assignment
设置字符串的格式:精简版
以前,主要的解决方案是使用字符串格式设置运算符——百分号。
类似于C语言中的经典函数 printf: 在%左边指定一个字符串(格式字符串),并在右边指定要设置其格式的值。
指定要设置其格式的值时,可使用单个值(如字符串或数字),可使用元组(如果要设置多个值的格式),还可以使用字典,其中最常见的是元组。
>>> format = "Hello, %s. %s enough for ya?"
>>> values = ('world','hot')
>>> format % values
'Hello, world. hot enough for ya?'
字符串中的 %s 称为转换说明符。指出了要将值插入什么地方。
s 意味着将值视为字符串进行格式设置,
如果使用的不是字符串,将使用 str 将其转换为字符串。
其他说明符将导致其他形式的转换。
例: %.3f 将值的格式设置为包含 3 为小数的浮点数。
另一种解决方案是模板字符串。
它使用类似于UNIX shell 的语法,旨在简化基本的格式设置机制,如下:
>>> from string import Template
>>> tmpl = Template("Hello, $who! $what enough for ya?")
>>> tmpl.substitute(who="Mars", what="Dusty")
'Hello, Mars! Dusty enough for ya?'
包含等号的参数称为关键字参数。
在字符串格式设置中,可将关键字参数视为一种向命名替换字段提供值的方式。
字符串方法 format ,使用这种方法时,每个替换字段都用花括号括起,其中可能包含名称,还可能包含有关如何对相应的值进行转换和格式设置的信息。
最简单情况下,替换字段没有名称或将索引用作名称。
>>> "{},{} and {}".format("first","second","third")
'first,second and third'
>>> "{0},{1} and {2}".format("first","second","third")
'first,second and third'
然,索引无需像上面这样按顺序排列。
>>> "{3} {0} {2} {1} {3} {0} ".format("be","not","or","to")
'to be or not to be '
命名字段的工作原理与预期完全相同。
>>> "{name} is approximately {value:.2f}.".format(value=pi, name="π")
'π is approximately 3.14.'
关键字参数的排列顺序无关紧要。
.2f 意味着使用包含2位小数的浮点数格式。
若没有指定 .2f ,结果如下:
>>> "{name} is approximately {value}.".format(value=pi, name="π")
'π is approximately 3.141592653589793.'
Python 3.6中,若变量与替换字段同名,则可简写。
可使用 f 字符串——在字符串前面加上 f。
>>> from math import e
>>> f"Euler's constant is roughly {e}."
"Euler's constant is roughly 2.718281828459045."
创建最终的字符串时,将把替换字段 e 替换为变量 e 的值。
等价于
>>> "Euler's constant is roughly {e}.".format(e=e)
"Euler's constant is roughly 2.718281828459045."
设置字符串的格式:完整版
基本思想是:对字符串调用方法format,并提供要设置其格式的值。
使用一种微型格式指定语言(mini-language)指定字符串包含有关如何设置格式的信息。
每个值都被插入字符串中,以替换用花括号括起的替换字段。
要在最终结果中包含花括号,可在格式字符串中使用两个花括号(即{{或}})来指定。
>>> "{{ceci n'est pas une replacement field}}".format()
"{ceci n'est pas une replacement field}"
替换字段由如下部分组成,每个部分都是可选的。
- 字段名: 索引或标识符,指出要设置哪个值的格式并使用结果来替换该字段。还可指定值的特定部分,如列表的元素。
- 转换标志: 跟在叹号后面的单个字符。 当前支持的字符包括 r (表示 repr)、s(表示 str)和 a (表示 asscii)。
- 格式说明符: 跟在冒号后面的表达式(使用微型格式指定语言表示)。可详细地指定最终的格式,包括格式类型(如字符串、浮点数或十六进制数),字段宽度和数的精度,如何显示符号和千位分割符,以及各种对齐和填充方式。
替换字段名
最简单情况,只需向 format 提供要设置其格式的未命名参数,并在格式字符串中使用未命名字段。
还可给参数指定名称,这种参数将被用于相应的替换字段中。
可混合使用这两种方法:
>>> "{foo} {} {bar} {}".format(1,2,bar=4,foo=3)
'3 1 4 2'
可通过索引来指定要在哪个字段中使用相应的未命名参数,这样可不按顺序使用未命名参数。
>>> "{foo} {1} {bar} {0}".format(1,2,bar=4,foo=3)
'3 2 4 1'
不能同时使用手工编号和自动编号。
并非只能使用提供的值本身,而是可访问其组成部分。如下:
>>> fullname = ["Alfred","Smoketoomuch"]
>>> "Mr {name[1]}".format(name=fullname)
'Mr Smoketoomuch'
基本转换
添加有关如何设置其格式的指令。
首先,可以提供一个转换标志。
>>> print("{pi!s} {pi!r} {pi!a}".format(pi="π"))
π 'π' '\u03c0'
上述三个标志(s、r 和 a)指定分别使用 str、repr 和 ascii 进行换行。
- 函数 str 通常创建外观普通的字符串版本(不对输入字符串做任何处理)。
- 函数 repr 尝试创建给定值的 Python表示(这里是一个字符串字面量)。
- 函数 ascii 创建只包含 ASCII字符的表示。
还可指定要转换的值是哪种类型,更准确的说,是要将其视为哪种类型。
例如,
可提供一个整数,但将其作为小数进行处理。
可在格式说明(即冒号后面)使用字符 f (表示定点数)。
>>> "The number is {num}".format(num=42)
'The number is 42'
>>> "The number is {num:f}".format(num=42)
'The number is 42.000000'
也可将其作为二进制数进行处理。
>>> "The number is {num:b}".format(num=42)
'The number is 101010'
宽度、精度和千位分隔符
设置浮点数(或其他更具体的小数类型)的格式时,默认在小数点后面显示6位小数,并根据需要设置字段的宽度,而不进行任何形式的填充。
可根据需要在格式说明中指定宽度和精度。
宽度是使用整数指定的,如下:
>>> "{num:10}".format(num=3)
' 3'
>>> "{num:10}".format(num="Bob")
'Bob
数和字符串的对齐方式不同。
精度也是使用整数指定的,但需要在它前面加上一个表示小数点的句号。
>>> "pi day is {pi:.2f}".format(pi=pi)
'pi day is 3.14'
显式地指定了类型 f 。
可同时指定宽度和精度。
>>> "{pi:10.2f}".format(pi=pi)
' 3.14'
对其他类型也可指定精度,但不太常见。
>>> "{:.5}".format("Guido van Rossum")
'Guido'
可使用逗号来指出要添加的千位分割符。
>>> 'One googol is {:,}'.format(10**100)
'One googol is 10,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000'
同时指定其他格式设置元素时,这个逗号应放在宽度和表示精度的句点之间。
符号、对齐和用0填充
在指定宽度和精度的数前面,可添加一个标志。这个标志可以是零、加号、减号或空格,其中零表示使用 0 来填充数字。
>>> '{:010.2f}'.format(pi)
'0000003.14'
要指定左对齐、右对齐和居中,可分别使用<、> 和 ^ 。
>>> print('{0:<10.2f}\n{0:^10.2f}\n{0:>10.2f}'.format(pi))
3.14
3.14
3.14
可以使用填充字符来扩充对齐说明符,这样将使用指定的字符而不是默认的空格来填充。
>>> "{:$^15}".format("WIN BIG")
'$$$$WIN BIG$$$$'
更具体的说明符 = ,它指定将填充字符放在符号和数字之间。
>>> print('{0:10.2f}\n{1:10.2f}'.format(pi, -pi))
3.14
-3.14
>>> print('{0:10.2f}\n{1:=10.2f}'.format(pi, -pi))
3.14
- 3.14
如果要给正数加上符号,可使用说明符+(将其放在对齐说明符后面),而不是默认的 - 。
如果将符号说明符指定为空格,会在正数前面加上空格而不是 + 。
>>> print('{0:-.2}\n{1:-.2}'.format(pi, -pi)) #默认设置
3.1
-3.1
>>> print('{0:+.2}\n{1:+.2}'.format(pi, -pi))
+3.1
-3.1
>>> print('{0: .2}\n{1: .2}'.format(pi, -pi))
3.1
-3.1
井号(#)选项,可将其放在符号说明符和宽度之间(如果指定了这两种设置)。
将触发另一种转换方式,转换细节随类型而异。
例:对于二进制、八进制和十六进制转换,将加上一个前缀。
>>> "{:b}".format(42)
'101010'
>>> "{:#b}".format(42)
'0b101010'
对于各种十进制数,它要求必须包含小数点(对于类型 g,它保留小数点后面的零)。
>>> "{:g}".format(42)
'42'
>>> "{:#g}".format(42)
'42.0000'
字符串方法
center
方法 center 通过在两边添加填充字符(默认为空格)让字符串居中。
>>> "The Middle by Jimmy Eat World".center(39)
' The Middle by Jimmy Eat World '
>>> "The Middle by Jimmy Eat World".center(39, "*")
'*****The Middle by Jimmy Eat World*****'
附录:ljust、rjust 和 zfill。
find
方法 find 在字符串中查找子串。
如果找到,就返回子串的第一个字符的索引,否则返回-1。
>>> 'With a moo-moo here, and a moo-moo there'.find('moo')
7
>>> title = "Monty Python's Flying Circus"
>>> title.find('Monty')
0
>>> title.find('Python')
6
>>> title.find('Flying')
15
>>> title.find('Zirquss')
-1
使用 find 检查是否包含’$$$’。
>>> subject = '$$$ Get rich now!!! $$$'
>>> subject.find('$$$')
0
注意:
字符串方法 find 返回的并非布尔值。
如果find返回0,表示它在索引0处找到了指定的子串。
还可指定搜索的起点和终点(是可选的)。
>>> subject = '$$$ Get rich now!!! $$$'
>>> subject.find('$$$')
0
>>> subject.find('$$$',1) # 只指定了起点
20
>>> subject.find('!!!')
16
>>> subject.find('!!!',0,16) # 同时指定了起点和终点
-1
注意,起点和终点值(第二个和第三个参数)指定的搜索范围包含起点,但不包含终点。
附录: rfind、index、rindex、count、startswith、
endswith 。
join
join 其作用与 split 相反,用于合并序列的元素。
>>> seq = [1,2,3,4,5]
>>> sep = '+'
>>> sep.join(seq) # 尝试合并一个数字列表
Traceback (most recent call last):
File "<pyshell#361>", line 1, in <module>
sep.join(seq) # 尝试合并一个数字列表
TypeError: sequence item 0: expected str instance, int found
>>> seq = ['1','2','3','4','5']
>>> sep.join(seq) # 合并一个字符串列表
'1+2+3+4+5'
>>> dirs = '','usr','bin','env'
>>> '/'.join(dirs)
'/usr/bin/env'
>>> print('C:' + '\\'.join(dirs))
C:\usr\bin\env
所合并序列的元素必须都是字符串。
另参见:split 。
lower
方法 lower 返回字符串的小写版本。
>>> 'Trondheim Hammer Dance'.lower()
'trondheim hammer dance'
如果列表包含字符串’gumby’,而指定的用户名为 ‘Gumby’,将会找不到它。
>>> if 'Gumby' in ['gumby','smith','jones']: print('Found it!')
>>>
解决方案:在存储和搜索时,将所有的用户名都转换为小写。
>>> name = 'Gumby'
>>> names = ['gumby','smith','jones']
>>> if name.lower() in names: print('Found it!')
Found it!
>>>
另参见: islower、istitle、isupper、translate 。
附录: capitalize、casefold、swapcase、title、upper 。
replace
方法 replace 将指定子串都替换为另一个字符串,并返回替换后的结果。
>>> 'This is a test'.replace('is','eez')
'Theez eez a test'
另参见: translate 。
附录: expandtabs 。
split
split 其作用与 join 相反,用于将字符串拆分为序列。
>>> '1+2+3+4+5'.split('+')
['1', '2', '3', '4', '5']
>>> '/usr/bin/env'.split('/')
['', 'usr', 'bin', 'env']
>>> 'Using the default'.split()
['Using', 'the', 'default']
注意,若没有指定分隔符,将默认在单个或多个连续的空白字符(空格、制表符、换行符等)处进行拆分。
另参见: join 。
附录: partition、rpartition、rsplit、splitlines 。
strip
方法 strip 将字符串开头和末尾的空白(但不包括中间的空白)删除,并返回删除后的结果。
>>> ' internal whitespace is kept '.strip()
'internal whitespace is kept'
需要将输入与存储的值进行比较时,strip很有用。
例,假定用户输入用户名时不小心在末尾加上了一个空格。
>>> names = ['gumby','smith','jones']
>>> name = 'gumby'
>>> if name in names: print('Found it!')
Found it!
>>> if name.strip() in names: print('Found it!')
Found it!
>>>
还可以在一个字符串参数中指定要删除哪些字符。
>>> '*** SPAM * for * everyone!!! ***'.strip(' *!')
'SPAM * for * everyone'
这个方法只删除开头或末尾的指定字符,因此,中间的星辉未被删除。
附录: lstrip、 rstrip 。
translate
方法 translate 与 replace 一样替换字符串的特定部分,不同的是它只能进行单字符替换。
优势在于能够替换多个字符,因此效率比 replace 高。
使用 translate 前必须创建一个转换表。
转换表指出了不同Unicode码点之间的转换关系。
要创建转换表,可对字符串类型 str 调用方法 maketrans,
这个方法接受两个参数:两个长度相同的字符串,它们指定要将第一个字符串中的每个字符都替换为第二个字符串中的相应字符。
示例:
>>> table = str.maketrans('cs','kz')
可查看转换表的内容,但看到的只是Unicode码点之间的映射。
>>> table
{99: 107, 115: 122}
创建转换表后,就可以将其用作方法 translate 的参数。
>>> 'this is an incredible test'.translate(table)
'thiz iz an inkredible tezt'
调用方法 maketrans时,还可提供可选的第三个参数,指定要将哪些字母删除。
例如,要模仿语速极快的德国口音,可将所有的空格都删除。
>>> table = str.maketrans('cs','kz',' ')
>>> 'this is an incredible test'.translate(table)
'thizizaninkredibletezt'
另参见: replace、lower。
判断字符串是否满足特定的条件
很多字符串都以 is 打头,如 isspace、 isdigit 和 isupper,它们判断字符串是否具有特定的性质(如包含的字符全为空白、数字或大写)。
如果字符串具备特定的性质,这些方法就返回True,否则返回 False。
附录: isalnum、isalpha、 isdecimal、 isdigit、 isidentifier、 islower、 isnumeric、 isprintable、 isspace、 istitle、 isupper 。
小结
本章介绍的新函数:
附录
字符串的方法
学习参考资料:
《Python基础教程》 第3版