通配符与正则表达式详解-CSDN博客

本文链接：https://blog.csdn.net/xusensen/article/details/73729973

通配符和正则表达式

通配符

通配符是用来匹配文件名的（最起码linux系统中是这样的）。

通配符	作用
？	匹配一个任意字符
*	匹配0个或任意多个任意字符，也就是可以匹配任何内容
[ ]	匹配中括号中任意一个字符。例如：[abc]代表一定匹配一个字符，或者是a，或者是b，或者是c。
[-]	匹配中括号中任意一个字符，-代表一个范围。例如：[a-z]代表匹配一个小写字母。
[^]	逻辑非，表示匹配不是中括号内的一个字符。例如：[^0-9]代表匹配一个不是数字的字符。

正则表达式与通配符的区别

正则表达式用来在文件中匹配符合条件的字符串，正则是==包含匹配==。++grep、awk、sed等命令可以支持正则表达式++。

如以下是列出wifi-1H55A4.log中所有包含字符串CACHE的行

➜  /tmp grep CACHE  wifi-1H55A4.log -n
13:Sun Jun 18 00:58:35.319 Info: <airportd[62]> QUERY SCAN CACHE request received from pid 62 (airportd)
14:Sun Jun 18 00:58:35.335 Info: <airportd[62]> QUERY SCAN CACHE request received from pid 62 (airportd)
17:Sun Jun 18 00:58:35.421 Driver Event: <airportd[62]> _bsd_80211_event_callback: SCAN_CACHE_UPDATED (en0)
26:Sun Jun 18 00:58:35.426 Info: <airportd[62]> QUERY SCAN CACHE request received from pid 85 (locationd)

通配符用来匹配符合条件的文件名，通配符是==完全匹配==。++ls、find、cp这些命令不支持正则表达式，所以只能使用shell自己的通配符来进行匹配了。++

基础正则表达式

元字符	作用
*	前一个字符匹配0次或任意多次。
.	匹配除了换行符外任意一个字符。范例:搜寻的字符串可以是 (eve)(eae)(eee) (e e), 但不能仅有 (ee)!亦即e与e中间『一定』仅有一个字符,而空格符也是字符! grep -n ‘e.e’ regular_express.txt
^	匹配行首。例如：^hello会匹配以hello开头的行。
$	匹配行尾。例如：hello&会匹配以hello结尾的行。
[]	匹配中括号中指定的任意一个字符，只匹配一个字符。例如：[aoeiu] 匹配任意一个元音字母，[0-9] 匹配任意一位数字， [a-z][0-9]匹配小写字和一位数字构成的两位字符。
[^]	匹配除中括号的字符以外的任意一个字符。例如：[\^0-9]匹配任意一位非数字字符，[\^a-z] 表示任意一位非小写字母。
\	转义符。用于取消讲特殊符号的含义取消。范例:搜寻吨有单引号 ‘的那一行! grep -n \’ regular_express.txt
\{n\}	表示其前面的字符恰好出现n次。例如：[0-9]\{4\} 匹配4位数字，[1][3-8][0-9]\{9\} 匹配手机号码。
\{n,\}	表示其前面的字符出现不小于n次。例如： [0-9]\{2,\} 表示两位及以上的数字。
\{n,m\}	表示其前面的字符至少出现n次，最多出现m次。例如： [a-z]\{6,8\} 匹配6到8位的小写字母。

“*”前一个字符匹配0次，或任意多次

grep "a*" test_rule.txt      #匹配所有内容，包括空白行
grep "aa*" test_rule.txt     #匹配至少包含有一个a的行
grep "aaa*" test_rule.txt    #匹配最少包含两个连续a的字符串
grep "aaaaa*" test_rule.txt  #则会匹配最少包含四个个连续a的字符串

“.” 匹配除了换行符外任意一个字符

grep "s..d" test_rule.txt    #“s..d”会匹配在s和d这两个字母之间一定有两个字符的单词
grep "s.*d" test_rule.txt    #匹配在s和d字母之间有任意字符
grep ".*" test_rule.txt      #匹配所有内容

“^”匹配行首，“$”匹配行尾

grep "^M" test_rule.txt    #匹配以大写“M”开头的行
grep "n$" test_rule.txt    #匹配以小写“n”结尾的行
grep -n "^$" test_rule.txt #会匹配空白行

“[]”匹配中括号中指定的任意一个字符，只匹配一个字符

grep "s[ao]id" test_rule.txt #匹配s和i字母中，要不是a、要不是o 
grep "[0-9]" test_rule.txt   #匹配任意一个数字
grep "^[a-z]" test_rule.txt  #匹配用小写字母开头的行

“[^]”匹配除中括号的字符以外的任意一个字符

grep "^[^a-z]" test_rule.txt    #匹配不用小写字母开头的行
grep "^[^a-zA-Z]" test_rule.txt #匹配不用字母开头的行

“\” 转义符

grep "\.$" test_rule.txt  #匹配使用“.”结尾的行

“\{n\}”表示其前面的字符恰好出现n次

grep "a\{3\}" test_rule.txt      #匹配a字母连续出现三次的字符串
grep "[0-9]\{3\}" test_rule.txt  #匹配包含连续的三个数字的字符串

“\{n,\}”表示其前面的字符出现不小于n次

grep "^[0-9]\{3,\}[a-z]" test_rule.txt    #匹配最少用连续三个数字开头的行

“\{n,m\}”匹配其前面的字符至少出现n次，最多出现m次

grep "sa\{1,3\}i" test_rule.txt    #匹配在字母s和字母i之间有最少一个a，最多三个a

反向选择

grep -vn 'the' regular_express.txt

匹配”oo”,但不想要oo前面有g

grep -n '[^g]oo' regular_express.txt

行尾结束为小数点 (.)
因为‘.’有特殊含义（匹配除了换行符外任意一个字符），所以要用转义符‘\’

grep -n '\.$' regular_express.txt

不要空白行和#开头的行

grep -v '^$' regular_express.txt | grep -v '^#'

完全匹配uuid

grep -n '^[[:alnum:]]\{8\}-[[:alnum:]]\{4\}-[[:alnum:]]\{4\}-[[:alnum:]]\{4\}-[[:alnum:]]\{12\}$' uuid.txt

nodejs语言中，还支持(){n}来匹配{}中的内容重复n次 .
注：不是\{n\}

[patrickxu@vm1 tmp]$ node
>  /^[a-zA-Z0-9]{8}-[a-zA-Z0-9]{4}-[a-zA-Z0-9]{4}-[a-zA-Z0-9]{4}-[a-zA-Z0-9]{12}$/.test("8f70f6c8-55a2-11e7-8ccd-5254a0000001")
true
> /^[a-zA-Z0-9]{8}(-[a-zA-Z0-9]{4}){3}-[a-zA-Z0-9]{12}$/.test("8f70f6c8-55a2-11e7-8ccd-5254a0000001")
true

特殊符号

注：并不是每种语言都支持。如js就不支持特殊符号。

特殊符号	代表意义
[:alnum:]	代表英文大小写字符及数字,亦卲 0-9, A-Z, a-z
[:alpha:]	代表任何英文大小写字符,亦卲 A-Z, a-z
[:blank:]	代表穸格键不 [Tab] 按键两者
[:cntrl:]	代表键盘上面癿控制按键,亦卲包括 CR, LF, Tab, Del.. 等等
[:digit:]	代表数字而已,亦卲 0-9
[:graph:]	除了空格符 (空格键与[Tab]按键) 外癿其他所有按键
[:lower:]	代表小写字符,亦即a-z
[:print:]	代表任何可以被打印出来的字符
[:punct:]	代表标点符号 (punctuation symbol),亦即:” ’ ? ! ; : # $…
[:upper:]	代表大写字符,亦即A-Z
[:space:]	任何会产生空白的字符,包括空格键, [Tab], CR 等等
[:xdigit:]	代表16进位的数字类型,因此包括: 0-9, A-F, a-f的数字与字符

匹配开头是小写字符的行

grep -n '^[a-z]' regular_express.txt
grep -n '^[[:lower:]]' regular_express.txt

匹配开头不是英文字母的行

grep -n '^[^a-zA-Z]' regular_express.txt
grep -n '^[^[:alpha:]]' regular_express.txt

扩展正则表达式

我们要去除空白行与行首为不为#的行列,使用的是

grep -v '^$' regular_express.txt | grep -v '^#'

使用扩展正则表达式，可以简化为

egrep -v '^$|^#' regular_express.txt
grep -E -v '^$|^#' xx.sh

这里列出几个特殊扩展符号：
1 +: 重复一个或一个以上的前一个RE字符。范例:搜寻 (god) (good) (goood)… 等等的字符串。那个 o+代表『一个以上的 o 』。

egrep -n 'go+d' regular_express.txt

2 ?:『零个或一个』的前一个RE字符。那个 o? 代表『空的或1个o』

egrep -n 'go+d' regular_express.txt

3 | : 用或( or )的方式找出数个字符串。如搜索包含 gd 或 good 或 dog 的行

egrep -n 'gd|good|dog' regular_express.txt

4 (): 找出『群组』字符串。范例:搜寻(glad)或(good) 这两个字符串,因为g与d 是重复的,所以, 我就可以将la 与oo列于 ( ) 当中,并以|来分隔开来,就可以啦!

egrep -n 'g(la|oo)d' regular_express.txt

5 ()+: 多个重复群组的判别范例:将『AxyzxyzxyzxyzC』用 echo 叫出,然后再使用如下的方法搜寻一下!

echo 'AxyzxyzxyzxyzC' | egrep 'A(xyz)+C'

上面的例子意思是说,我要找开头是A结尾是C ,中间有一个以上的”xyz” 字符串