shell脚本——正则表达式，grep，awk

最新推荐文章于 2024-06-23 16:25:57 发布

洛笙0723

最新推荐文章于 2024-06-23 16:25:57 发布

阅读量710

点赞数

文章标签：正则表达式

本文链接：https://blog.csdn.net/zr2642342915/article/details/132394316

版权

一、正则表达式介绍

1、正则表达式---通常用于判断语句中，用来检查某一字符串是否满足某一格式

2、正则表达式是由普通字符与元字符组成

3、普通字符包括大小写字母、数字、标点符号及一些其他符号

4、元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符或表达式)在目标对象中的出现模式

二、正则表达式

注意事项：使用正则表达式必须加引号。

1、元字符

①.：在正则表达式中.表示任意单个字符。

[root@pc1 data]#grep   -o r.t /etc/passwd #过滤passwd文件中开头为r中间任意单个字符结尾为t的内容
rat
rat
rat
[root@pc1 data]#grep   -o r..t /etc/passwd #过滤passwd文件中开头为r中间任意2个字符结尾为t的内容
root
root
root
root
r/ft
[root@pc1 data]#grep   -o r...t /etc/passwd #过滤passwd文件中开头为r中间任意3个字符结尾为t的内容
rtkit

②[ ]：在正则表达式中[ ]表示匹配[ ]中任意一个字符。

[root@pc1 data]#touch {a..c}.txt #创建a-c.txt文件夹
[root@pc1 data]#ls               #显示文件夹内容
a.txt  b.txt  c.txt 
[root@pc1 data]#ls |grep '[a-z].txt' #使用grep过滤ls中有任意一个a-z字母.txt的文件
a.txt
b.txt
c.txt

③[^]：在正则表达式中表示匹配[ ]中外的任意单个字符。

[root@pc1 data]#touch {a..c}.txt        #创建a-c.txt文件
[root@pc1 data]#touch {0..2}.txt        #创建0-2.txt文件
[root@pc1 data]#ls                      #显示文件
0.txt  1.txt  2.txt  a.txt  b.txt  c.txt
[root@pc1 data]#ls |grep '[^0-9].txt'   #过滤ls显示文件中除去0-9任意字符.txt文件
a.txt
b.txt
c.txt
[root@pc1 data]#ls |grep '[^a-z].txt'   #过滤ls显示文件中除去a-z任意字符.txt文件
0.txt
1.txt
2.txt

[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母
[:blank:] 空白字符（空格和制表符）
[:space:] 包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围广
[:cntrl:] 不可打印的控制字符（退格、删除、警铃...）
[:digit:] 十进制数字
[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号

[root@pc1 data]#echo AB12ab | grep -o '[[:alpha:]]'  #过滤输出内容的字母
A
B
a
b
[root@pc1 data]#echo AB12ab | grep -o '[[:alnum:]]'  #过滤输出内容的字母和数字
A
B
1
2
a
b
[root@pc1 data]#echo AB12ab | grep -o '[[:lower:]]'  #过滤输出内容的小写字母
a
b
[root@pc1 data]#echo AB12ab | grep -o '[[:upper:]]'  #过滤输出内容的大写字母
A
B

2、表示次数

①*：表示匹配前面字符任意次，包括0次。

[root@pc1 ~]#echo  ac |grep 'ab*c'  #ab之间不输入b可匹配
ac
[root@pc1 ~]#echo  abc |grep 'ab*c' #ab之间输入1个b可匹配
abc
[root@pc1 ~]#echo  abbc |grep 'ab*c'#ab之间输入2个b可匹配
abbc

②.*：表示匹配前面字符任意次，不包括0次。

[root@pc1 ~]#echo ac |grep 'ab.*c'  #ac之间不输入b匹配不到
[root@pc1 ~]#echo abc |grep 'ab.*c' #ac之间输入1个b可以匹配
abc
[root@pc1 ~]#echo abbc |grep 'ab.*c' #ac直接输入2个b可以匹配
abbc

③\?：表示匹配前面的字符1次或0次，即可有可无。

[root@pc1 ~]#echo ac | grep 'ab\?c'    #ac之间不输入b可以匹配
ac
[root@pc1 ~]#echo abc | grep 'ab\?c'   #ac之间输入1个b可以匹配
abc
[root@pc1 ~]#echo abbc | grep 'ab\?c'  #ac之间输入2个b匹配不到

④\+：表示匹配前面的字符最少1次。

[root@pc1 ~]#echo ac | grep 'ab\+c'  #ac之间不输入b匹配不到
[root@pc1 ~]#echo abc | grep 'ab\+c' #ac之间输入1个b可以匹配
abc
[root@pc1 ~]#echo abbbbc | grep 'ab\+c' #ac之间输入多个b可以匹配
abbbbc

⑤\{n\}：表示匹配前面的字符n次。

[root@pc1 ~]#echo abbbc |grep 'ab\{3\}c'  #输出abbbc匹配ac之间b字符出现3次可以匹配
abbbc
[root@pc1 ~]#echo abbbbc |grep 'ab\{3\}c' #输出abbbbc匹配ac之间b字符出现3次匹配不到

⑥\{m,n\}：表示匹配前面的字符最少m次最多n次。

[root@pc1 ~]#echo abc |grep 'ab\{1,3\}c'  #输出abc匹配ac之间b出现最少1次最多3次可以匹配
abc
[root@pc1 ~]#echo abbc |grep 'ab\{1,3\}c' #输出abbc匹配ac之间b出现最少1次最多3次可以匹配
abbc
[root@pc1 ~]#echo abbbc |grep 'ab\{1,3\}c'#输出abbbc匹配ac之间b出现最少1次最多3次可以匹配
abbbc
[root@pc1 ~]#echo abbbbc |grep 'ab\{1,3\}c'#输出abbbbc匹配ac之间b出现最少1次最多3次匹配不到

⑦\{m,\}：表示匹配前面的字符最少m次。

⑧\{,n\}：表示匹配前面的字符最多n次。

3、位置锚定

①^表示以什么字符开头的行。

②$表示以什么字符为结尾的行。

③^PATTERN$ 表示用于模式匹配整行（单独一行只有PATTERN字符）。

④^$ 表示空行。

⑤\< 或 \b #词首锚定，用于单词模式的左侧(连续的数字，字母，下划线都算单词内部)。

⑥\> 或 \b #词尾锚定，用于单词模式的右侧。

⑦\<PATTERN\> #匹配整个单词。

[root@pc1 ~]#cat a.txt                #查看a.txt内容 
root
abc   abd  abf abe 
asfase
asdfasfewe
[root@pc1 ~]#cat a.txt |grep '^a'     #查看a.txt内容过滤以a开头的行
abc   abd  abf abe 
asfase
asdfasfewe
[root@pc1 ~]#cat a.txt |grep 'e$'     #查看a.txt内容过滤以e为结尾的行
asfase
asdfasfewe
[root@pc1 ~]#cat a.txt |grep '^root$' #查看a.txt内容过滤只有root字符的行
root
[root@pc1 ~]#cat a.txt |grep '\ba'    #查看a.txt过滤以a开头的词
abc   abd  abf abe 
asfase
asdfasfewe
[root@pc1 ~]#cat a.txt |grep 'e\b'    #查看a.txt过滤以e为结尾的词
abc   abd  abf abe 
asfase
asdfasfewe
[root@pc1 ~]#cat a.txt |grep -o '\babc\b' #查看a.txt过滤次abc
abc

4、分组

()将多个字符捆绑在一起当做一个整体处理

[root@pc1 ~]#echo abcccc |grep "abc\{4\}"  #匹配输出内容c出现4次
abcccc
[root@pc1 ~]#echo abcccc |grep "\(abc\)\{4\}" #abc字符加()分组匹配输出内容abc出现4次，无abc出现4次匹配不到
[root@pc1 ~]#echo abcabcabcabc |grep "\(abc\)\{4\}"  #abc字符加()分组匹配输出内容abc出现4次匹配成功
abcabcabcabc

5、扩展正则表达式

①使用方法

grep -E选项加正则表达式内容，与正常正则表达式区别在于不用在匹配时添加 \

②表示次数

* 匹配前面字符任意次
? 0或1次
+ 1次或多次
{n} 匹配n次
{m,n} 至少m，至多n次
{,n} #匹配前面的字符至多n次,<=n，n可以为0
{n,} #匹配前面的字符至少n次,<=n，n可以为0

③表示分组

() 分组

三、grep

grep [选项]… 查找条件目标文件

-i：查找时忽略大小写

-v：反向查找，输出与查找条件不相符的行

-o 只显示匹配项

-f 对比两个文件的相同行

-c 匹配的行数（[root@localhost ky15]# grep -c root passwd 2）

选项：
-color=auto 对匹配到的文本着色显示
-m  # 匹配#次后停止
grep -m 1 root /etc/passwd   #多个匹配只取第一个
-v 显示不被pattern匹配到的行,即取反
grep -Ev '^[[:space:]]*#|^$' /etc/fstab
-i 忽略字符大小写
-n 显示匹配的行号
-c 统计匹配的行数
grep -c root /etc/passwd    #统计匹配到的行数
-o 仅显示匹配到的字符串
-q 静默模式，不输出任何信息
-A # after, 后#行
grep -A3 root /etc/passwd   #匹配到的行后3行业显示出来
-B # before, 前#行
-C # context, 前后各#行
-e 实现多个选项间的逻辑or关系,如：grep –e ‘cat ' -e ‘dog' file
grep -e root -e bash /etc/passwd #包含root或者包含bash 的行
grep -E root|bash  /etc/passwd
-w 匹配整个单词
grep -w root /etc/passwd
useradd rooter
-E 使用ERE，相当于egrep
-F 不支持正则表达式，相当于fgrep
-f   file 根据模式文件，处理两个文件相同内容 把第一个文件作为匹配条件
-r   递归目录，但不处理软链接
-R   递归目录，但处理软链接

四、awk

1、awk

awk为流编辑器，即读取文件一行处理一行。不同于vi编辑器等是将文件整个缓存在内容中处理。

2、使用格式

awk [选项] '处理模式{处理动作}'

'{ }'为固定格式

举例：取出sda硬盘的容量
[root@pc1 data]#lsblk
NAME            MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda               8:0    0   60G  0 disk
├─sda1            8:1    0    2G  0 part /boot
└─sda2            8:2    0   54G  0 part
  ├─centos-root 253:0    0   50G  0 lvm  /
  └─centos-swap 253:1    0    4G  0 lvm  [SWAP]
sdb               8:16   0   20G  0 disk
sdc               8:32   0   20G  0 disk
sdd               8:48   0   20G  0 disk
sr0              11:0    1  4.2G  0 rom  
[root@pc1 data]#lsblk  |grep -w sda       #通过过滤sda字符将sda此行过滤出
sda               8:0    0   60G  0 disk
[root@pc1 data]#lsblk  |grep -w sda | awk '{print $4}' #使用awk不指定分隔符 打印出第4列
60G

3、处理动作

①基本格式：awk [选项] '处理模式{处理动作}'

②print动作：打印，打印'{print $1}'即为打印第一列，'{print $n}'即打印为第n列，'{print $n,$m}'即为打印第n列和第m列。

③print打印顺序：'BEGIN{print "1"} END {print "2"} {print "3"} '，首先打印BEGIN后的print 1,然后打印print 3 最后打印END后的print 2，BEGIN表示第一个打印，END表示最后打印

4、选项

①基本格式：awk [选项] '处理模式{处理动作}'

②选项若不写默认为以空格为分隔符处理，且会将空格自动压缩。

③-F 选项指定分隔符，即指定以什么为分隔符处理内容

5、awk常见的内建变量

FS :指定每行文本的字段分隔符，缺省为空格或制表符（tab）。与 “-F”作用相同 -v "FS=:"
OFS：输出时的分隔符
NF：当前处理的行的字段个数
NR：当前处理的行的行号（序数）
$0：当前处理的行的整行内容
$n：当前处理行的第n个字段（第n列）
FILENAME:被处理的文件名
RS：行分隔符。awk从文件上读取资料时，将根据RS的定义就把资料切割成许多条记录，而awk一次仅读入一条记录进行处理。预设值是\n

5.1$0 当前处理的行的整行内容

5.2NR 处理指定行内容

5.2.1 使用数字处理行内容

5.2.2使用字符串处理行内容

5.2.3打印行号

5.3 $n 当前处理行的第n个字段

5.4 FS(-F)列分割符,指定每行文本的字段分隔符

awk -F 分隔符 '{操作}'

5.5 OFS输出内容的列分隔符

将空格换为“|”

3.6 NF当前处理的行的字段个数

打印第一个字段与最后一个字段

3.7 RS行分隔符

洛笙0723

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
shell脚本——正则表达式，grep，awk

③print打印顺序：'BEGIN{print "1"} END {print "2"} {print "3"} '，首先打印BEGIN后的print 1,然后打印print 3 最后打印END后的print 2，BEGIN表示第一个打印，END表示最后打印。②print动作：打印，打印'{print $1}'即为打印第一列，'{print $n}'即打印为第n列，'{print $n,$m}'即为打印第n列和第m列。[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
复制链接

扫一扫