匹配:在一大堆信息中寻找有特点,有规律的信息。
1.正则表达式的基本符号
点号“."
表示任何非换行符的任何一个字符。包括但不限于英文字母、数字、汉字、英文标点符号和中文标点符号。
星号“*”
表示他前面的一个子表达式(普通字符、另一个字符或几个正则表达式符号)任意次。
问号“?”(英文)
表示它前面的子表达式的0次或者1次。
“.*”:表示匹配一串任意长度的字符串任意次,能获取最长的满足条件符字符串。
“.*?”表示满足要求的最短字符。
“\”反斜杠
与其他符号配合使用,可以把普通符号转化成特殊符号,或者把特殊符号转换成普通符号。
转义符号 | 意义 |
---|---|
\n | 换行符 |
\t | 制表符 |
\\ | 普通的反斜杠 |
\’ | 单引号 |
\d | 数字 |
“\d”:一位数字,“\d\d\d\d”:四位数字,“\d*”任意位数字。
2.提取信息:
“()”可以把小括号里面的数字提取出来。
3.re模块
可以从一大段文字中提取出有规律的信息。
findall方法
re.findall(pattern,string,flag=())
pattern:表示正则表达式
string:表示要提取的字符串
flag:这个参数可以省略,它可以忽略大小写或者换行符等,比如需要忽略换行符“\n”,需要用到“re.S”这个flag。例子如下:
import re
content="我的密码是:1234567,QQ密码是:33445566,银行密码是:88888888,Github密码是:9999sbn111,帮我记住他们。"
#”\d“
password_list1=re.findall("我的密码是:\d*7",content)
print("password_list1:{}".format(password_list1))
#用()来提取想要的信息
password_list2=re.findall("我的密码是:(\d*)7",content)
print("password_list2:{}".format(password_list2))
###".*?"的使用,有"?"
password_list3=re.findall(":(.*?),",content)
print("password_list3:{}".format(password_list3))
###当没有“?”时
password_list4=re.findall(":(.*),",content)
print("password_list4:{}".format(password_list4))
#flag是使用
Content='''我的密码是:1234567,QQ密码是:33445566,
银行密码是:88888888,Github密码是:9999sbn111,帮我记住他们。'''
###有flag
password_list5=re.findall(":(.*?),",Content)
print("password_list5:{}".format(password_list5))
###无flag
password_list6=re.findall(":(.*?),",Content,re.S)
print("password_list6:{}".format(password_list6))
>>>password_list1:['我的密码是:1234567']
password_list2:['123456']
password_list3:['1234567', '33445566', '88888888', '9999sbn111']
password_list4:['1234567,QQ密码是:33445566,银行密码是:88888888,Github密码是:9999sbn111']
password_list5:['1234567', '33445566', '88888888', '9999sbn111']
password_list6:['1234567', '33445566', '88888888', '9999sbn111']