正则表达式

正则表达式

正表达式分类:

正则表达式:REGEXP,REGular EXPression。
正则表达式分为两类:

  • Basic REGEXP(基本正则表达式)

  • Extended REGEXP(扩展正则表达式)

正则表达式定义

正则表达式(Regular Expression,通常简写为regex、regexp或RE)是一种文本模式,用于描述和匹配一系列符合某个模式(规则)的文本。

正则表达式由普通字符(例如字母和数字)以及特殊字符(称为元字符)组成。这些元字符包括字符类、预定义的匹配模式、量词和边界匹配等。正则表达式可以用来检索、替换或提取文本中符合某个模式的子串。

在编程语言中,正则表达式通常用于字符串操作,例如在Perl、Scala、PHP、C#、Java、C++、Objective-C、Swift、VBScript、Javascript、Ruby和Python等语言中都支持正则表达式的功能。

此外,正则表达式也常用于验证和格式化文本,例如检查数字格式、提取电子邮件地址、验证表单数据等。

正则表达式组成

普通字符:

大小写字母、数字、标点符号及一些其他符号

元字符:

在正则表达式中具有特殊意义的专用字符

单括号,双括号,中括号,双中括号,大括号的用法
单括号:
1.命令组。括号中的命令将会新开一个子shell顺序执行,所以括号中的变量不能够被脚本余下的部分使用。括号中多个命令之间用分号隔开,最后一个命令可以没有分号,各命令和括号之间不必有空格。

2.命令替换。等同于cmd,shell扫描一遍命令行,发现了( c m d ) 结 构 , 便 将 (cmd)结构,便将(cmd)结构,便将(cmd)中的cmd执行一次,得到其标准输出,再将此输出放到原来命令。有些shell不支持,如tcsh。

3.用于初始化数组。如:array=(a b c d)

双小括号:
1.整数扩展。这种扩展计算是整数型的计算,不支持浮点型。((exp))结构扩展并计算一个算术表达式的值,如果表达式的结果为0,那么返回的退出状态码为1,或者 是"假",而一个非零值的表达式所返回的退出状态码将为0,或者是"true"。若是逻辑判断,表达式exp为真则为1,假则为0。

2.只要括号中的运算符、表达式符合C语言运算规则,都可用在$((exp))中,甚至是三目运算符。作不同进位(如二进制、八进制、十六进制)运算时,输出结果全都自动转化成了十进制。如:echo $((16#5f)) 结果为95 (16进位转十进制)

3.单纯用 (( )) 也可重定义变量值,比如 a=5; ((a++)) 可将 $a 重定义为6

4.常用于算术运算比较,双括号中的变量可以不使用 符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合 C 语言运算规则 , 比如可以直接使用 f o r ( ( i = 0 ; i < 5 ; i + + ) ) , 如果不使用双括号 , 则为 f o r i i n s e q 04 或者 f o r i i n 0..4 。再如可以直接使用 i f ( ( 符号前缀。括号内支持多个表达式用逗号分开。 只要括号中的表达式符合C语言运算规则,比如可以直接使用for((i=0;i<5;i++)), 如果不使用双括号, 则为for i inseq 0 4或者for i in {0..4}。再如可以直接使用if (( 符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合C语言运算规则,比如可以直接使用for((i=0;i<5;i++)),如果不使用双括号,则为foriinseq04或者foriin0..4。再如可以直接使用if((i<5)), 如果不使用双括号, 则为if [ $i -lt 5 ]。

((expr ))通常作为运算的

中括号:
1.bash 的内部命令,[和test是等同的。如果我们不用绝对路径指明,通常我们用的都是bash自带的命令。if/test结构中的左中括号是调用test的命令标识,右中括号是关闭条件判断的。这个命令把它的参数作为比较表达式或者作为文件测试,并且根据比较的结果来返回一个退出状态码。if/test结构中并不是必须右中括号,但是新版的Bash中要求必须这样。

2.Test和[]中可用的比较运算符只有=和!=,两者都是用于字符串比较的,不可用于整数比较,整数比较只能使用-eq,-gt这种形式。无论是字符串比较还是整数比较都不支持大于号小于号。如果实在想用,对于字符串比较可以使用转义形式,如果比较"ab"和"bc":[ ab < bc ],结果为真,也就是返回状态为0。[ ]中的逻辑与和逻辑或使用-a 和-o 表示。且[]前后都有空格。

3.字符范围。用作正则表达式的一部分,描述一个匹配的字符范围。作为test用途的中括号内不能使用正则。

4.在一个array 结构的上下文中,中括号用来引用数组中每个元素的编号。

双中括号:
1.[[是 bash 程序语言的关键字。并不是一个命令,[[ ]] 结构比[ ]结构更加通用。在[[和]]之间所有的字符都不会发生文件名扩展或者单词分割,但是会发生参数扩展和命令替换。

2.支持字符串的模式匹配,使用=~操作符时甚至支持shell的正则表达式。字符串比较时可以把右边的作为一个模式,而不仅仅是一个字符串,比如[[ hello == hell? ]],结果为真。[[ ]] 中匹配字符串或通配符,不需要引号。

3.使用[[ … ]]条件判断结构,而不是[ … ],能够防止脚本中的许多逻辑错误。比如,&&、||、<和> 操作符能够正常存在于[[ ]]条件判断结构中,但是如果出现在[ ]结构中的话,会报错。比如可以直接使用if [[ $a != 1 && $a != 2 ]], 如果不适用双括号, 则为if [ $a -ne 1] && [ $a != 2 ]或者if [ $a -ne 1 -a $a != 2 ]。

4.bash把双中括号中的表达式看作一个单独的元素,并返回一个退出状态码。

大括号:
1.大括号拓展。(通配(globbing))将对大括号中的文件名做扩展。在大括号中,不允许有空白,除非这个空白被引用或转义。第一种:对大括号中的以逗号分割的文件列表进行拓展。如 touch {a,b}.txt 结果为a.txt b.txt。第二种:对大括号中以点点(…)分割的顺序文件列表起拓展作用,如:touch {a…d}.txt 结果为a.txt b.txt c.txt d.txt

2.代码块,又被称为内部组,这个结构事实上创建了一个匿名函数 。与小括号中的命令不同,大括号内的命令不会新开一个子shell运行,即脚本余下部分仍可使用括号内变量。括号内的命令间用分号隔开,最后一个也必须有分号。{}的第一个命令和左括号之间必须要有一个空格。{}也可以用于多行注释,作为函数包起来只是不调用即可。

基本正表达式:

元字符

例子(红色代表匹配到的)
[root@localhost ~]# ls
[root@localhost ~]# touch {a..z} {A..Z} {1..100}
[root@localhost ~]# ls
1    15  21  28  34  40  47  53  6   66  72  79  85  91  98  C  g  J  n  Q  u  X
10   16  22  29  35  41  48  54  60  67  73  8   86  92  99  d  G  k  N  r  U  y
100  17  23  3   36  42  49  55  61  68  74  80  87  93  a   D  h  K  o  R  v  Y
11   18  24  30  37  43  5   56  62  69  75  81  88  94  A   e  H  l  O  s  V  z
12   19  25  31  38  44  50  57  63  7   76  82  89  95  b   E  i  L  p  S  w  Z
13   2   26  32  39  45  51  58  64  70  77  83  9   96  B   f  I  m  P  t  W
14   20  27  33  4   46  52  59  65  71  78  84  90  97  c   F  j  M  q  T  x
.:匹配任意单个字符

在这里插入图片描述

[]:匹配指定范围内的任意单个字符

在这里插入图片描述

[^] :匹配指定范围外的任意单个字符

在这里插入图片描述

\:转义字符
例:\!、\n

匹配次数

[root@localhost ~]# cat b
aaa
aaaa
aaaaa
abc
abbc
abbbc
*:匹配其前面的任意单个字符任意次

在这里插入图片描述

.*:任意长度的任意字符

在这里插入图片描述

\?:匹配其前面的任意单个字符1次或0次

在这里插入图片描述

\+:匹配其前面的任意单个字符至少1次

在这里插入图片描述

\{m,n\}:匹配其前面的任意单个字符至少m次,至多n次

在这里插入图片描述

位置锚定:

^:锚定行首,此字符后面的任意单个字符必须出现在行首
$:锚定行尾,此字符前面的任意单个字符必须出现在行尾

在这里插入图片描述

^$:空白行
\<或\b:锚定词首,其后面的任意单个字符必须作为单词首部出现
\>或\b:锚定词尾,其前面的任意单个字符必须作为单词尾部出现

在这里插入图片描述

分组

\(\)
    例:\(ab\)*
    //后向引用
        \1      //引用第一个左括号以及与之对应的右括号所包括的所有内容
        \2      //引用第二个左括号以及与之对应的右括号所包括的所有内容

在这里插入图片描述

扩展正则表达式(用法上进行了优化):

字符匹配:

.:匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符

次数匹配

*:匹配其前面的任意单个字符任意次
?:匹配其前面的任意单个字符1次或0次
+:匹配其前面的任意单个字符至少1次
{m,n}:匹配其前面的任意单个字符至少m次,至多n次

位置锚定:

^:锚定行首,此字符后面的任意单个字符必须出现在行首
$:锚定行尾,此字符前面的任意单个字符必须出现在行尾
^$:空白行
\<或\b:锚定词首,其后面的任意单个字符必须作为单词首部出现
\>或\b:锚定词尾,其前面的任意单个字符必须作为单词尾部出现

在这里插入图片描述

分组:

():分组
\1,\2,\3,....
例:(ab)*
后向引用
\1:引用第一个左括号以及与之对应的右括号所包括的所有内容
\2:引用第二个左括号以及与之对应的右括号所包括的所有内容
或者
|:or 默认匹配|的整个左侧或者整个右侧的内容
例:C|cat表示C或者cat,要想表示Cat或者cat则需要使用分组,如(C|c)at

在这里插入图片描述

  1. 过滤日期:

    日期格式可能为 YYYY-MM-DD

    [root@localhost ~]# cat a
    2024-08-09
    2019-22-66
    1933-44-44
    1933-09-21
    2222-06-06
    1911-03-04
    2022/12/11
    2024/08/09
    1924/06/06
    2023/66/99
    2023-10-22
    2020-08-28
    [root@localhost ~]# grep -E '^(19|20)?[0-9]{2}[-/](0[1-9]|1[0-2])[-/](0[1-9]|[12][0-9]|3[01])$' a
    2024-08-09
    1933-09-21
    1911-03-04
    2022/12/11
    2024/08/09
    1924/06/06
    2023-10-22
    2020-08-28
    
  2. 过滤时间:

    时间格式可能为 HH:MM:SS

    [root@localhost ~]# cat c
    00:00:00
    01:59:43
    44:44:22
    11:11:12
    14:21:23
    28:66:55
    [root@localhost ~]# grep -E '([0-1][0-9]|2[0-3])(:[0-5][0-9]){2}' c
    00:00:00
    01:59:43
    11:11:12
    14:21:23
    
  3. 过滤手机号码:

    手机号码格式可能为 XXX-XXXX-XXXXXXXXXXXXXXX

    [root@localhost ~]# cat d
    13487643389
    12382498329
    19384983292
    19393489834
    18349844893
    13984384399
    doiadaowijf
    1291380130192390
    39183913131381983
    [root@localhost ~]# grep -E '^1[3-9][0-9]{9}$' d
    13487643389
    19384983292
    19393489834
    18349844893
    13984384399
    
  4. 过滤座机号码:匹配区号(位3位数或4)+ 5到8位号码的座机号

    座机号码格式可能为带区号的 区号-座机号码 或仅包含座机号码,

[root@localhost ~]# cat e
123-123456
3213-1313213
(212)-4132413
1202-321321
201-312231
121212-321321312321
212121-3214124214
rkwj-21312cfad
[root@localhost ~]#  grep -E '\(?0[0-9]{2,3}\)?-?[0-9]{5,8}' e
123-123456
3213-1313213
(212)-4132413
1202-321321
201-312231
  • 15
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值