shell正则表达式

最新推荐文章于 2023-09-16 10:31:49 发布

式部茉优

最新推荐文章于 2023-09-16 10:31:49 发布

阅读量110

点赞数 1

分类专栏： linux 日志文章标签： linux

本文链接：https://blog.csdn.net/weixin_48190887/article/details/108086323

版权

linux 日志专栏收录该内容

48 篇文章 0 订阅

订阅专栏

正则表达式
正则表达式又称正规表达式、常规表达式。
在代码中常简写为 regex、regexp 或 RE。
正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，
简单来说，
是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。

正则表达式又称正规表达式、常规表达式。
在代码中常简写为 regex、regexp 或 RE。
正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，
是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。

Linux 系统中常见的文本处理器（grep、egrep、sed、awk）
grep 与 sed 支持基础正则表达式，而 egrep 与 awk 支持扩展正则表达式。

（1）查找特定字符
查找特定字符非常简单，如执行以下命令即可从 test.txt 文件中查找出特定字符“the”所在位置。
其中“-n”表示显示行号、“-i”表示不区分大小写。
命令执行后，符合匹配标准的字符，字体颜色会变为红色

[root@localhost ~]# grep -n 'the' test.txt
4:the tongue is boneless but it breaks bones.12!
5:google is the best tools for search keyword.
不区分大小写
[root@localhost ~]# grep -i -n 'the' test.txt
3:The home of Football on BBC Sport online.
4:the tongue is boneless but it breaks bones.12!

不包含“the”字符的行，则需要通过 grep 命令的“-v”选项实现，并配合“-n”一起使用显示行号。
[root@localhost ~]# grep -v -n 'the' test.txt
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants.
3:The home of Football on BBC Sport online.

（2）利用中括号“[]”来查找集合字符
想要查找“shirt”与“short”这两个字符串时，
可以发现这两个字符串均包含“sh”与“rt”。
此时执行以下命令即可同时查找到“shirt”与“short”这两个字符串，
其中“[]”中无论有几个字符，都仅代表一个字符，也就是说“[io]”表示匹配“i”或者“o”。
查找test里面shirt或者short
[root@localhost ~]# grep -n 'sh[io]rt' test.txt
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants.
查找重复单词oo
[root@localhost ~]# grep -n 'oo' test.txt
3:The home of Football on BBC Sport online.
5:google is the best tools for search keyword.

“oo”前面不是“w”的字符串，只需要通过集合字符的反向选择“[^]”来实现该目的。
例如执行“grep -n‘[^w]oo’test.txt”
命令表示在 test.txt 文本中查找“oo”前面不是“w”的字符串。
（^在[]外面意思是在开每行头查找在[]里意思是取反）
在文件test.txt查找开头没有w的oo
[root@localhost ~]# grep -n '[^w]oo' test.txt
3:The home of Football on BBC Sport online.
5:google is the best tools for search keyword.
执行结果中发现“woood”与“wooooood”也符合匹配规则，
二者均包含“w”。其实通过执行结果就可以看出，符合匹配标准的字符加粗显示，
而上述结果中可以得知，
“#woood #”中加粗显示的是“ooo”，而“oo”前面的“o”是符合匹配规则的。
同理“#woooooood #”也符合匹配规则。

“a-z”表示小写字母，大写字母则通过“A-Z”表示。
查找不是小写字母开头的oo
[root@localhost ~]# grep -n '[^a-z]oo' test.txt
3:The home of Football on BBC Sport online.

（3）查找行首“^”与行尾字符“$”
基础正则表达式包含两个定位元字符：
“^”（行首）与“$”（行尾）。
查询“the”字符串时出现了很多包含“the”的行，
如果想要查询以“the”字符串为行首的行，则可以通过“^”元字符来实现。
[root@localhost ~]# grep -n '^the' test.txt
4:the tongue is boneless but it breaks bones.12!
查询以小数点（.）结尾的行。
因为小数点（.）在正则表达式中也是一个元字符，
所以在这里需要用转义字符“\”将具有特殊意义的字符转化成普通字符。
[root@localhost ~]# grep -n '\.$' test.txt
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants.
当想要查询空结尾行时“grep -n‘^$’test.txt”即可

（4）查找任意一个字符“.”与重复字符“*”
（.）也是一个元字符，代表任意一个字符。
例如执行以下命令就可以查找“w??d”的字符串，即共有四个字符，以 w 开头 d 结尾。
查询w开头d结尾中间两个是任意字母数字的
[root@localhost ~]# grep -n 'w..d' test.txt
5:google is the best tools for search keyword.

查询包含至少两个 o 以上的字符串“grep -n 'ooo*' test.txt”
查询三个或者三个往上的ooo
[root@localhost ~]# grep -n 'ooo*' test.txt
3:The home of Football on BBC Sport online.
5:google is the best tools for search keyword.
w 开头 d 结尾，中间的字符可有可无的字符串（.任意字符*0个或者多个合起来就是可有可无）
[root@localhost ~]# grep -n 'w.*d' test.txt
1:he was short and fat.
5:google is the best tools for search keyword.

查询任意数字所在行。
[root@localhost ~]# grep -n '[0-9][0-9]*' test.txt
4:the tongue is boneless but it breaks bones.12!
7:PI=3.141592653589793238462643383249901429

（5）查找连续字符范围“{}”
用了“.”与“*”来设定零个到无限多个重复的字符，
例如，查找三到五个 o 的连续字符，
这个时候就需要使用基础正则表达式中的限定范围的字符“{}”。
因为“{}”在 Shell 中具有特殊意义，
所以在使用“{}”字符时，需要利用转义字符“\”，
将“{}”字符转换成普通字符。
查询两个o字符
[root@localhost ~]# grep -n 'o\{2\}' test.txt
3:The home of Football on BBC Sport online.
5:google is the best tools for search keyword.
查询以w开头中间包换2-5个o字符以d结尾的字符串（，从第几个到第几个）
[root@localhost ~]# grep -n 'wo\{2,5\}d' test.txt
8:a wood cross! 11:#woood #
查询以w开头d结尾中间有2个或两个以上的o的字符串
[root@localhost ~]# grep -n 'wo\{2,\}d' test.txt
8:a wood cross!

2.元字符总结
^   匹配输入字符串的开始位置。除非在方括号表达式中使用，表示不包含该字符集合。要匹配“^” 字符本身，请使用“\^”
$   匹配输入字符串的结尾位置。如果设置了RegExp 对象的 Multiline 属性，则“$”也匹配‘\n’或‘\r’。要匹配“$”字符本身，请使用“\$”
.   匹配除“\r\n”之外的任何单个字符

\ 反斜杠，又叫转义字符，去除其后紧跟的元字符或通配符的特殊意义

* 匹配前面的子表达式零次或多次。要匹配“*”字符，请使用“\*”

[] 字符集合。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”

[^] 赋值字符集合。匹配未包含的一个任意字符。例如，“[^abc]”可以匹配“plain”中任何一个字母

[n1-n2]   字符范围。匹配指定范围内的任意一个字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意一个小写字母字符。
注意：只有连字符（-）在字符组内部，并且出现在两个字符之间时，才能表示字符的范围；如果出现在字符组的开头，则只能表示连字符本身
{n}   n 是一个非负整数，匹配确定的 n 次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的“oo”
{n,}   n 是一个非负整数，至少匹配 n 次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”
{n,m}   m 和 n 均为非负整数，其中 n<=m，最少匹配 n 次且最多匹配m 次

式部茉优

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
shell正则表达式

正则表达式正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查..
复制链接

扫一扫

专栏目录