目录
正则表达式
先学习正则表达式,接着学习模块。正则表达式是一种独立的规则,独立的语言,正则表达式只与字符串有关
正则表达式的特点
贪婪匹配 : 回溯算法 。简单来说就是在允许的范围内取最长的匹配结果, 可以匹配一个或两个,贪婪匹配默认匹配两个
非贪婪模式/惰性匹配:在量词后面加? 在范围内,尽量少的匹配
例如:
(1)\d+?8 1234890809876487 遇到第一个8就不再匹配 ;
(2).*?x 匹配任意非换行符字符任意长度,直到遇到x;
(3)身份证是一个长度为15或18个字符 的字符串,如果是15位则全部由数字组成,首位不能为0;如果是18位,则前17位全部是数字,末尾可能是数字或x
123456789876543
123456789876543452
12345678987654342x
用正则表达式表示:[1-9]\d{16}[\dx]|[1-9]\d{14} [1-9]\d{14}(\d{2}[\dx])?
正则表达式的应用
1.从大量文字中找到符合规则的内容
爬虫
日志分析 提取2018-8-12 10:00:00时间段花的所有钱
2018-8-12 10:00:00 楼下早点摊
2.判断某个字符是否完全符合规则
表单验证:手机号、qq号、邮箱、银行卡、身份证号、密码
正则表达式——字符组
中括号[ ]里的内容只约束一个字符
[a-z] 匹配小写字母
[A-Z] 匹配大写字母
[0-9] 匹配数字
[3-5] 只要是从小到大就行
[a-zA-Z] 匹配大小写
[a-zA-Z0-9] 匹配大小写字母+数字
[a-zA-Z0-9_] 匹配数字字母下划线
[0-9a-fA-F] 可以匹配到数字,大小写的a-f,用来验证十六进制字符
正则表达式——转义符
\\w 让第二个转义符失去转义的特殊意义,去匹配\w \\->\
正则表达式——元字符
\w 匹配数字,字母,下划线 word关键字 [a-zA-Z0-9_]
\d 匹配所有的数字 digit [0-9]
\s 匹配所有的空格符 回车/换行符 制表符 space
匹配换行符 \n
匹配制表符 \t
匹配空格 (敲一个空格)不属于元字符,普通字符
\W (非数字,字母下划线) \D (非数字) \S(非空格符 回车/换行符 制表符) 和\w \d \s取反
[\s\S] [\d\D] [\w\W] 是三组全集,匹配所有字符
了解即可: \b 边界 ing\b 以ing结尾的 \bing 匹配以ing开头的
开始匹配符——^ 和 结束匹配符——$
- ^ 匹配一个字符串的开始 ^hello 匹配第一个hello 只写一个^,内容为空,匹配结果为1
- $ 匹配一个字符串的结尾 hello$ 匹配到结尾的hello
- . 匹配除换行符以外的所有字符
- [] 只要出现在中括号里的内容都可以被匹配
- [^] 只要不出现在中括号里的内容都可以被匹配 例[^abc] 除abc以外的都能匹配
注意:
有一些有特殊意义的元字符进入字符组中会恢复它本来的意义: . * | [不能成对出现] ( )
- 号在括号中有特殊意义,需要转义
例如要想匹配到( [(]或\( [\-] 才能匹配到-号
开始符和结束符:必须完全匹配,多一个不行,少一个不行
匹配一个11位电话号码: ^\d\d\d\d\d\d\d\d\d\d\