Python学习之路,点击有全套Python笔记
常用特殊符号和字符:
匹配一个范围[]
:[A-Z0-9]
匹配前面出现的正则表达式任意多次,包含0次 *
:[abc]*
匹配前面出现的正则表达式0次或1次 ?
:a?
匹配前面出现的正则表达式一次或多次+
:a+
\d:匹配任何数字
\s:匹配任何空白字符
\w:匹配任何数字、字母、字符==[A-Za-z0-9]
^ 如果出现在[]种,代表不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
^如果没出现在[]中,匹配字符串的开头
$: 匹配字符串的末尾。
re.copile(pattern[, flags])用与生成一个正则表达式对象
- pattern : 一个字符串形式的正则表达式
- flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:
re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为’ . ‘并且包括换行符在内的任意字符(’ . ‘不包括换行符)
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性,忽略空格和’ # '后面的注释
匹配match从字符串的开头进行匹配
搜索search从字符串的任意部位开始匹配,扫描整个字符串并返回第一个成功的匹配。
re.match(pattern,string,flags=0)
# pattern 匹配的正则表达式
# string 要匹配的字符串。
# flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
#尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。成功时可以使用结果的group函数获取匹配到的值
# group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
# groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
re.search(pattern, string, flags=0)
# pattern 匹配的正则表达式
# string 要匹配的字符串。
# flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
# 从字符串的任意部位开始匹配,扫描整个字符串并返回第一个成功的pattern匹配。
# group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
# groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
match和search的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
findall:在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。 注意: match 和
search 是匹配一次 findall 匹配所有。
re.findall(string[, pos[, endpos]])
# string 待匹配的字符串。
# pos 可选参数,指定字符串的起始位置,默认为 0。
# endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。
re.finditer:和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
re.finditer(pattern, string, flags=0)
# pattern 匹配的正则表达式
# string 要匹配的字符串。
# flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
re.split:split 方法按照能够匹配的子串将字符串分割后返回列表
re.split(pattern, string[, maxsplit=0, flags=0])
# pattern 匹配的正则表达式
# string 要匹配的字符串。
# maxsplit 分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。
# flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。