Python学习笔记—— 3. 字符串
引用文章
字符串的创建
我们可以通过单引号或双引号创建字符串。例如:a=’abc’; b=”abc”,当我们创建的字符串中含有双引号时,我们可以通过一对单引号创建字符串
>>> a='abc'
>>> b="abc"
>>> print(a,b)
abc abc
>>> c=' i am "李明"'
>>> print(c)
i am "李明"
Python 允许空字符串的存在,不包含任何字符且长度为 0。例如:
>>> c = ''
>>> len(c)
0
转义字符
字符 | 描述 |
---|---|
\ | 反斜杠符号 |
’ | 单引号 |
" | 双引号 |
\b | 退格(Backspace) |
\n | 换行 |
\t | 横向制表符 |
\r | 回车 |
replace()实现字符串替换
字符串是“不可改变”的,我们通过[]可以获取字符串指定位置的字符,但是我们不能改变
字符串。我们尝试改变字符串中某个字符,发现报错了:
>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a
'abcdefghijklmnopqrstuvwxyz'
>>> a[3]='高'
Traceback (most recent call last):
File "<pyshell#94>", line 1, in <module>
a[3]='高'
TypeError: 'str' object does not support item assignment
字符串不可改变。但是,我们确实有时候需要替换某些字符。这时,只能通过创建新的字符串来实现。
>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a
'abcdefghijklmnopqrstuvwxyz'
>>> a = a.replace('c','高')
'ab 高 defghijklmnopqrstuvwxyz'
整个过程中,实际上我们是创建了新的字符串对象,并指向了变量 a,而不是修改了以前的字符串。
※split()分割和 join()合并
plit()可以基于指定分隔符将字符串分隔成多个子字符串(存储到列表中)。如果不指定分隔
符,则默认使用空白字符(换行符/空格/制表符)。示例代码如下:
>>> a = "to be or not to be"
>>> a.split()
['to', 'be', 'or', 'not', 'to', 'be']
>>> a.split('be')
['to ', ' or not to ', '']
join()的作用和 split()作用刚好相反,用于将一系列子字符串连接起来。示例代码如下:
>>> a = ['sxt','sxt100','sxt200']
>>> '*'.join(a)
'sxt*sxt100*sxt200'
a = ['sxt','sxt100','sxt200']
c="-".join(a)
print(c)
>>>sxt-sxt100-sxt200
使用字符串拼接符+,会生成新的字符串对象,因此不推荐使用+来拼接字符串。推荐
使用 join 函数,因为 join 函数在拼接字符串之前会计算所有字符串的长度,然后逐一拷贝,仅新建一次对象。
成员操作符
in /not in 关键字,判断某个字符(子字符串)是否存在于字符串中。
字符串常用方法汇总
常用的查找方法
我们以一段文本作为测试:
a=’’‘我是高兴,今年 18 岁了,我在北京尚学堂科技上班。我的儿子叫高洛希,他 6 岁了。我是一个编程教育的普及者,希望影响 6000 万学习编程的中国人。我儿子现在也开始学习编程,希望他 18 岁的时候可以超过我’’’
方法和使用示例 | 说明 | 结果 |
---|---|---|
len(a) | 字符串长度 | 96 |
a.startwith(‘我是高兴’) | 以指定字符串开头 | True |
a.endwith(‘过我’) | 以指定字符串结尾 | True |
a.find(‘高’) | 第一次出现指定字符串的位置 | 2 |
a.rfind(‘高’) | 最后一次出现指定字符串的位置 | 29 |
a.count(‘编程’) | 指定字符串出现了几次 | 3 |
a.isalnum() | 所有字符全是字母或数字 | False |
去除首尾信息
我们可以通过 strip()去除字符串首尾指定信息。通过 lstrip()去除字符串左边指定信息,rstrip()去除字符串右边指定信息。
>>> "*s*x*t*".strip("*")
's*x*t'
>>> "*s*x*t*".lstrip("*")
's*x*t*'
>>> "*s*x*t*".rstrip("*")
'*s*x*t'
>>> " sxt ".strip()
'sxt'
大小写转换
编程中关于字符串大小写转换的情况,经常遇到。我们将相关方法汇总到这里。为了方便学习,先设定一个测试变量:a = “gaoqi love programming, loveSXT”
示例 | 说明 | 结果 |
---|---|---|
a.capitalize() | 产生新的字符串,首字母大写 | ‘Gaoqi love programming, love sxt’ |
a.title() | 产生新的字符串,每个单词都首字母大写 | ‘Gaoqi Love Programming, Love Sxt’ |
a.upper() | 产生新的字符串,所有字符全转成大写 | ‘GAOQI LOVE PROGRAMMING,LOVESXT’ |
a.lower() | 产生新的字符串,所有字符全转成小写 | ‘gaoqi love programming, love sxt’ |
a.swapcase() | 产生新的,所有字母大小写转换 | ‘GAOQI LOVE PROGRAMMING, LOVEsxt’ |
格式排版
center()、ljust()、rjust()这三个函数用于对字符串实现排版。示例如下:
>>> a="SXT"
>>> a.center(10,"*")#居中
'***SXT****'
>>> a.center(10)
' SXT '
>>> a.ljust(10,"*")#左对齐
'SXT*******'
>>> a.rjust(10,"*")#右对齐
'*******SXT'
其他方法
- isalnum() 是否为字母或数字
- isalpha() 检测字符串是否只由字母组成(含汉字)。
- isdigit() 检测字符串是否只由数字组成。
- isspace() 检测是否为空白符
- isupper() 是否为大写字母
- islower() 是否为小写字母
>>> "sxt100".isalnum()
True
>>> "sxt 尚学堂".isalpha()
True
>>> "234.3".isdigit()
False
>>> "23423".isdigit()
True
>>> "aB".isupper()
False
>>> "A".isupper()
True
>>> "\t\n".isspace()
True
※字符串的格式化
format()基本用法
Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的
功能。
基本语法是通过 {} 和 : 来代替以前的 % 。
format 函数可以接受不限个参数,位置可以不按顺序。
我们通过示例进行格式化的学习。
>>> a = "名字是:{0},年龄是:{1}"
>>> a.format("高淇",18)
'名字是:高淇,年龄是:18'
>>> a.format("高希希",6)
'名字是:高希希,年龄是:6'
>>> b = "名字是:{0},年龄是{1}。{0}是个好小伙"
>>> b.format("高淇",18)
'名字是:高淇,年龄是 18。高淇是个好小伙'
>>> c = "名字是{name},年龄是{age}"
>>> c.format(age=19,name='高淇')
'名字是高淇,年龄是 19'
我们可以通过{索引}/{参数名},直接映射参数值,实现对字符串的格式化,非常方便。
填充与对齐
填充常跟对齐一起使用
^、<、>分别是居中、左对齐、右对齐,后面带宽度
:号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充
>>> "{:*>8}".format("245")
'*****245'
>>> "我是{0},我喜欢数字{1:*^8}".format("高淇","666")
'我是高淇,我喜欢数字**666***'
数字格式化
浮点数通过 f,整数通过 d 进行需要的格式化。案例如下:
>>> a = "我是{0},我的存款有{1:.2f}"
>>> a.format("高淇",3888.234342)
'我是高淇,我的存款有 3888.23'
其他格式,供大家参考:
数字 | 格式 | 输出 | 描述 |
---|---|---|---|
3.1415926 | {:.2f} | 3.14 | 保留小数点后两位 |
3.1415926 | {:+.2f} | 3.14 | 带符号保留小数点后两位 |
2.71828 | {:.0f} | 3 | 不带小数 |
5 | {:0>2d} | 05 | 数字补零 (填充左边, 宽度为 2) |
5 | {:x<4d} | 5xxx | 数字补 x (填充右边, 宽度为 4) |
10 | {:x<4d} | 10xx | 数字补 x (填充右边, 宽度为 4) |
1000000 | {:,} | 1,000,000 | 以逗号分隔的数字格式 |
0.25 | {:.2%} | 25.00% | 百分比格式 |
1000000000 | {:.2e} | 1.00E+09 | 指数记法 |
13 | {:10d} | 13 | 右对齐 (默认, 宽度为 10) |
13 | {:<10d} | 13 | 左对齐 (宽度为 10) |
13 | {:^10d} | 13 | 中间对齐 (宽度为 10) |
Python的字符串内建函数
方法 | 参数 | 描述 |
---|---|---|
关于字母的内置函数 | ||
capitalize() | 无 | 将字符串的第一个字符转换为大写 |
title() | NA | 单词都是以大写开始,其余字母均为小写 |
upper() | NA | 转换字符串中的小写字母为大写 |
swapcase() | NA | 将字符串中大写转换为小写,小写转换为大写 |
max(str) | str – 字符串 | 方法返回字符串中最大的字母 |
min(str) | str– 字符串 | 方法返回字符串中最小的字母 |
关于判断的内置函数 | ||
isalnum() | 无 | 字符串中只有字母或数字则返 回 True,否则返回 False |
isalpha() | 无 | 检测字符串是否只由字母组成。是则返回 True, 否则返回 False |
isdigit() | 无 | 字符串是否只由数字组成,是则返回 True 否则返回 False。 |
islower() | 无 | 检测字符串是否由小写字母组成,是则返回 True,否则返回 False |
isnumeric() | 无 | 字符串是否只由数字组成。这种方法是只针对unicode对象。是返回 True, False |
isdecimal() | 无 | 字符串是否只包含十进制字符。这种方法只存在于unicode对象.是返回 True, False |
isspace() | 无 | 字符串是否只由空白字符组成。是返回 True, 否则False |
istitle() | 无 | 检测字符串中所有的单词拼写首字母是否为大写,且其他字母为小写。是返回 True, 否则False |
isupper() | 无 | 字符串中所有的字母是否都为大写 .是返回 True, 否则False |
替换 | ||
replace(old, new[, max]) | old – 将被替换的子字符串。new – 新字符串,用于替换old子字符串。max – 可选字符串, 替换不超过 max 次 | 把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。 |
expandtabs(tabsize=8) | tabsize – 指定转换字符串中的 tab 符号(’\t’)转为空格的字符数。 | 把字符串中的 tab 符号(’\t’)转为空格,tab 符号(’\t’)默认的空格数是 8。 |
maketrans(intab, outtab) | intab – 字符串中要替代的字符组成的字符串。outtab – 相应的映射字符的字符串。 | 用于创建字符映射的转换表,对于接受两个参数的最简单的调用方式,第一个参数是字符串,表示需要转换的字符,第二个参数也是字符串表示转换的目标。两个字符串的长度必须相同,为一一对应的关系。 |
位置对齐 | ||
zfill(width) | width – 指定字符串的长度。 | 原字符串右对齐,前面填充0。 返回指定长度的字符串,原字符串右对齐,前面填充0。 |
rjust(width[, fillchar]) | 1.width – 指定填充指定字符后中字符串的总长度.2.fillchar – 填充的字符,默认为空格。 | 返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串。如果指定的长度小于字符串的长度则返回原字符串。 |
center(width[, fillchar]) | width – 字符串的总宽度。fillchar – 填充字符。 | 返回一个指定的宽度 width 居中的字符串,fillchar 为填充的字符,默认为空格。 |
ljust(width[, fillchar]) | width – 指定字符串长度。fillchar – 填充字符,默认为空格。 | 返回一个原字符串左对齐,并使用空格填充至指定长度的新字符串。如果指定的长度小于原字符串的长度则返回原字符串。 |
检查查找 | ||
startswith(substr, beg=0,end=len(string)) | str – 检测的字符串。substr – 指定的子字符串。strbeg – 可选参数用于设置字符串检测的起始位置。strend – 可选参数用于设置字符串检测的结束位置。 | 用于检查字符串是否是以指定子字符串开头,如果是则返回 True,否则返回 False。如果参数 beg 和 end 指定值,则在指定范围内检查。 |
endswith(suffix[, start[, end]]) | suffix – 该参数可以是一个字符串或者是一个元素。start – 字符串中的开始位置。end – 字符中结束位置。 | 用于判断字符串是否以指定后缀结尾,如果以指定后缀结尾返回 True,否则返回 False。可选参数 “start” 与 “end” 为检索字符串的开始与结束位置。 |
find(str, beg=0, end=len(string)) | str – 指定检索的字符串beg – 开始索引,默认为0。end – 结束索引,默认为字符串的长度 | 检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,如果指定范围内如果包含指定索引值,返回的是索引值在字符串中的起始位置。如果不包含索引值,返回-1。 |
rfind(str, beg=0 end=len(string)) | str – 查找的字符串beg – 开始查找的位置,默认为0end – 结束查找位置,默认为字符串的长度。 | 返回字符串最后一次出现的位置,如果没有匹配项则返回-1 |
index(str, beg=0, end=len(string)) | str – 指定检索的字符串beg – 开始索引,默认为0。end – 结束索引,默认为字符串的长度。 | 检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,该方法与 python find()方法一样,只不过如果str不在 string中会报一个异常。 |
rindex(str, beg=0 end=len(string)) | str – 查找的字符串beg – 开始查找的位置,默认为0end – 结束查找位置,默认为字符串的长度。 | 返回子字符串 str 在字符串中最后出现的位置,如果没有匹配的字符串会报异常,你可以指定可选参数[beg:end]设置查找的区间。 |
删除 | ||
rstrip([chars]) | chars – 指定删除的字符(默认为空格) | 删除 string 字符串末尾的指定字符(默认为空格) |
lstrip([chars]) | chars – 指定删除的字符(默认为空格) | 删除 string 字符串开头的指定字符(默认为空格) |
strip([chars]) | chars – 移除字符串头尾指定的字符序列。 | 用于移除字符串头尾指定的字符(默认为空格)或字符序列。 |
拼接 | ||
join(sequence) | sequence – 要连接的元素序列。 | 用于将序列中的元素以指定的字符连接生成一个新的字符串。 |
分割 | ||
split(str="", num=string.count(str)) | 1.str – 分隔符,默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等。2.num – 分割次数。默认为 -1, 即分隔所有。 | 通过指定分隔符对字符串进行切片,如果第二个参数 num 有指定值,则分割为 num+1 个子字符串。 |
返回元素列表 | ||
splitlines([keepends]) | keepends – 在输出结果里是否去掉换行符(’\r’, ‘\r\n’, \n’),默认为 False,不包含换行符,如果为 True,则保留换行符。 | 按照行(’\r’, ‘\r\n’, \n’)分隔,返回一个包含各行作为元素的列表,如果参数 keepends 为 False,不包含换行符,如果为 True,则保留换行符。 |
计算数量 | ||
count(sub, start= 0,end=len(string)) | sub – 搜索的子字符串start – 字符串开始搜索的位置。默认为第一个字符,第一个字符索引值为0。end – 字符串中结束搜索的位置。字符中第一个字符的索引为 0。默认为字符串的最后一个位置。 | 用于统计字符串里某个字符出现的次数。可选参数为在字符串搜索的开始与结束位置。 |
len( s ) | s – 对象。 | 返回对象(字符、列表、元组等)长度或项目个数。 |
过滤 | ||
1.translate(table) 2.bytes.translate(table[, delete]) 3.bytearray.translate(table[, delete]) | table – 翻译表,翻译表是通过 maketrans() 方法转换而来。 deletechars – 字符串中要过滤的字符列表。 | 根据参数table给出的表(包含 256 个字符)转换字符串的字符,要过滤掉的字符放到 deletechars 参数中。 |
编码解码 | ||
bytes.decode(encoding=“utf-8”, errors=“strict”) | encoding – 要使用的编码,如"UTF-8"。errors – 设置不同错误的处理方案。默认为 ‘strict’,意为编码错误引起一个UnicodeError。 其他可能得值有 ‘ignore’, ‘replace’,‘xmlcharrefreplace’, ‘backslashreplace’ 以及通过 codecs.register_error() 注册的任何值。 | 以指定的编码格式解码 bytes 对象。默认编码为 ‘utf-8’。 |
encode(encoding=‘UTF-8’,errors=‘strict’) | encoding – 要使用的编码,如: UTF-8。errors – 设置不同错误的处理方案。默认为 ‘strict’,意为编码错误引起一个UnicodeError。 其他可能得值有 ‘ignore’, ‘replace’,‘xmlcharrefreplace’, ‘backslashreplace’ 以及通过 codecs.register_error() 注册的任何值。 | 以指定的编码格式编码字符串。errors参数可以指定不同的错误处理方案。 |