文章目录
在线正则表达式网站
1.常见语法
正则表达式中的普通字符都是表示直接匹配,但是有些特殊的字符,术语为metacharacters(元字符)。它们出现在正则表达式字符串中,不是表示直接匹配他们, 而是表达一些特别的含义。这些特殊的元字符包括下面这些:
. * + ? \ [ ] ^ $ { } | ( )
1.1 点-匹配所有字符
.
表示要匹配除了换行符之外的所有单个字符
比如说:
苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的
.色
此时表示所有以“色”结尾的单词,其中“.
”表示一个字符
content = '''苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的'''
import re
p = re.compile(r'.色')
for one in p.findall(content):
print(one)
上述代码输出为:
正则表达式前面的r
表示取消所有的转义含义
compile()函数表示产生一个Pattern类的对象
findall()返回的是一个列表,列表中的元素是字符串
1.2 星号-重复匹配任意次
*
表示匹配前面的子表达式任意次,包括0次。
比如说:,.*
表示“,”开头,后面紧跟若干个字符(按行划分)
因为这里“.
”表示任意的一个字符,*
表示任意的次数
1.3 加号-重复匹配多次
+
表示匹配前面的子表达式一次或多次,不包括0次。
注意和*
的区别
和*号的情况略有不同,+号前面的表达式至少出现一次
1.4 问号-匹配0-1次
?
表示匹配前面的子表达式0次或1次。
1.5 花括号-匹配指定次数
上图中表示油至少出现3次,最多出现4次
常常用来匹配电话号码
1.6 贪婪模式与非贪婪模式
* + ?
都是贪婪地,使用他们时,会尽可能多的匹配内容,要想解决这个问题,就需要使用非贪婪模式,也就是在星号后面加上?
,变成这样 .*?
1.7 对原字符的转义
\
表示对后面的.
进行转义
1.8 匹配某种字符类型
反斜杠后面接一些字符,表示匹配 某种类型 的一个字符。比如:
\d 匹配0-9之间任意一个数字字符,等价于表达式 [0-9]
\D 匹配任意一个不是0-9之间的数字字符,等价于表达式 [^0-9]
\s 匹配任意一个空白字符,包括 空格、tab、换行符等,等价于表达式 [\t\n\r\f\v]
\S 匹配任意一个非空白字符,等价于表达式 [^ \t\n\r\f\v]
\w 匹配任意一个文字字符,包括大小写字母、数字、下划线,等价于表达式 [a-zA-Z0-9_]
缺省情况也包括 Unicode文字字符,如果指定 ASCII 码标记,则只包括ASCII字母
\W 匹配任意一个非文字字符,等价于表达式 [^a-zA-Z0-9_]
content = '''
王小五
张小二
tony
'''
import re
p = re.compile(r'\w{2,4}',re.ASCII)
print(p.findall(content))
输出为['tony']
1.9 方括号-匹配几个字符之一
方括号表示要匹配 指定的几个字符之一 。比如:
[abc]
可以匹配 a, b, 或者 c 里面的任意一个字符。等价于[a-c]
。
[a-c]
中间的 - 表示一个范围从a 到 c。
如果你想匹配所有的小写字母,可以使用[a-z]
在方括号里.
表示其本身的含义,不再表示任意字符
如果在方括号中使用 ^
, 表示非方括号里面的字符集合
1.10 起始、结尾、单行、多行
^
表示每行的开头位置(多行模式)
re.compile(r'^\d+', re.M)
中re.M
表示切换到多行模式
$
表示每行结尾
1.11 括号-组选择
content = '''苹果,苹果是绿色的
橙子,橙子是橙色的
香蕉,香蕉是黄色的'''
import re
p = re.compile(r'^(.*),', re.MULTILINE)
for one in p.findall(content):
print(one)
content = '''苹果,苹果是绿色的
橙子,橙子是橙色的
香蕉,香蕉是黄色的'''
import re
p = re.compile(r'^(.*)(,)', re.MULTILINE)
for one in p.findall(content):
print(one)
多组时,one返回的是一个元组