正则表达式(regular expression)是一种处理字符串的工具,功能十分强大。正则表达式使用预定义的特定模式去匹配一类具有共同特征的字符串,主要用于字符串处理,可以快速,准确地完成复杂的查找,替换等处理要求。
正则表达式的主要内容如下。
Python标准库的re模块提供了正则表达式操作所需要的功能,可以直接使用re。
re.search(pattern,string[,flags])是re中常用的一个常用函数,功能是扫描整个字符串并返回第一次匹配成功的对象,如果匹配失败,返回None,
参数解释:
pattern:匹配的正则表达式;
string:要匹配的字符串;
flags:标志位,用于控制正则表达式的匹配方式。
下面将用re.search()说明正则表达式的具体用法。
1.原子
原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子,常见的原子有以下几类:
(1)普通字符作为原子
普通字符如:数字,大小写字母,下划线等。以下程序中,使用"yue"为原子:
结果为:
可以看到,返回了一个match对象,span表示匹配成功的结果在原字符串中的位置。
(2)非打印字符作为原子
所谓的非打印字符,指的是一些在字符串中用于格式控制的符号,比如换行符和制表符等。
比如,可以输入以下程序实现换行符的匹配:
结果为: