Linux_Shell三剑客grep,awk,sed-08

k.g588

已于 2024-08-18 16:51:47 修改

阅读量1k

点赞数 31

文章标签： linux 服务器运维

于 2024-08-18 16:50:30 首次发布

本文链接：https://blog.csdn.net/weixin_68620988/article/details/141162609

版权

三剑客的概述：

awk、grep、sed是linux操作文本的三大利器，合称文本三剑客，也是必须掌握的linux命令之一。三者的功能都是处理文本，但侧重点各不相同，其中属awk功能最强大，但也最复杂。grep更适合单纯的查找或匹配文本，sed更适合编辑匹配到的文本，awk更适合格式化文本，对文本进行较复杂格式处理。

一：grep命令

grep命令是一种文本搜索工具，他能使用正则表达式搜索文本，并把匹配的行打印出来，grep的全称是Golobal Regular Expression Print表示全局正则表达式版本，它的使用权限是所有用户.

grep可用于shell脚本，因为grep通过返回一个状态值来说明搜索的状态，如果模板搜索成功，则返回0，如果搜索不成功，则返回1，如果搜索的文件不存在，则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。

1.1 基本语法

grep [选项] 模式 [文件...]

# 管道命令一起
命令 | grep xxxx

模式：你想要在文件中搜索的文本或正则表达式。
文件...：你想要搜索的文件列表。如果省略文件名，grep 会从标准输入（通常是键盘输入或另一个命令的输出）中读取数据。

常用选项

常用选项	释义
-i	忽略大小写进行匹配。
-v	反向查找，只打印不匹配的行。
-n	显示匹配行的行号。
-r	递归查找子目录中的文件。
-l	只打印匹配的文件名。
-c	只打印匹配的行数。
-w	只匹配整个单词，而不是部分匹配。
-o	只显示匹配的部分，而不是整行。
-A n	显示匹配行及后面n行的内容。
-B n	显示匹配行及前面n行的内容。
-C n	显示匹配行及前后各n行的内容。
-e pattern	指定多个匹配模式。
-E	使用扩展正则表达式进行匹配。
-F	将模式视为固定字符串而不是正则表达式。

1.2 使用举例

示例1

准备test

# -A2 7 的效果就是找到 7 ，然后输出 2 后面两行
[root@localhost ~]# grep -A2 7 test

# -B2 7找到 7 ，然后输出 2 前面两行
[root@localhost ~]# grep -B2 7 test


#查找test中的aaa
[root@localhost ~]# grep -c aaa test

# -i：忽略大小写
[root@localhost ~]# grep -i aaa test

# -n：显示匹配的行号
[root@localhost ~]# grep -n -i aaa test

# -c：输出匹配到的共计行数
[root@localhost ~]# grep -c aaa test

 #-n：输出匹配到的这些行的内容以及它们各自的行号。
[root@localhost ~]# grep -n aaa test

# -e：实现多个匹配之间的或关系，查找包含aaa或者bbb的
[root@localhost ~]# grep -e aaa -e bbb test

grep -F

grep -F相当于fgrep命令，就是将pattern视为固定字符串。

grep命令中的-F选项用于将搜索模式视为固定字符串（fixed strings），而不是正则表达式（regular expressions）。这意味着grep在搜索时不会将搜索模式中的特殊字符（如.、*、?、[、]、^、$、\{、\}、|、\、(、)等）视为正则表达式的元字符，而是将它们视为普通字符。

使用-F选项可以加快搜索速度，特别是当你知道搜索模式不包含任何正则表达式元字符，或者你不希望grep对这些字符进行特殊处理时。

例如，如果你有一个文件example.txt，内容如下：

hello.world  
hello*world  
hello?world  
hello[world

如果你想要搜索包含hello*world这个确切字符串的行（注意这里的*是普通字符，不是正则表达式中的“零个或多个前面字符”的意思），你可以使用grep -F来实现：

grep -F "hello*world" example.txt

这个命令会输出：

hello*world

如果你不使用-F选项，grep会将*视为正则表达式元字符，并尝试匹配零个或多个o字符，这可能会导致不同的结果，具体取决于文件内容。

总结来说，-F选项让grep将搜索模式视为纯文本字符串，不进行正则表达式的特殊字符处理。这在处理包含正则表达式元字符的文本时非常有用，尤其是当你想要搜索这些元字符本身时。

grep -f

grep命令中的-f选项允许你从一个文件中读取正则表达式模式，而不是直接在命令行中指定它们。这意味着你可以将多个搜索模式保存在一个文件中，然后使用grep -f选项和该文件作为输入来搜索目标文件中的匹配项。

使用-f选项时，你需要在文件中每行指定一个搜索模式。当grep运行时，它会读取这个文件中的每一行，并将其视为一个搜索模式，然后在目标文件中查找这些模式的匹配项。

这个选项在处理多个搜索模式时非常有用，特别是当这些模式太复杂或太多，以至于直接在命令行中指定它们会变得不切实际时。

例如，假设你有一个名为patterns.txt的文件，内容如下：

error  
warning  
notice

这个文件包含了你想要在另一个文件（比如logfile.txt）中搜索的三个模式。你可以使用以下命令来搜索这些模式：

grep -f patterns.txt logfile.txt

这个命令会搜索logfile.txt文件中所有包含error、warning或notice的行，并将它们打印出来。

请注意，patterns.txt文件中的每一行都被视为一个独立的正则表达式，因此你可以在其中包含正则表达式的特殊字符（尽管这可能会使模式匹配变得更加复杂）。但是，如果你只是想进行简单的文本匹配，并且不希望grep将文件中的特殊字符视为正则表达式元字符，你可以结合使用-F和-f选项，但请注意，-F选项实际上会覆盖对正则表达式元字符的特殊处理，因此它可能不是你想要的效果（除非你真的只想进行纯文本匹配）。如果你想要从文件中读取模式，但又不希望这些模式中的特殊字符被解释为正则表达式，你可能需要手动转义这些特殊字符，或者确保它们不是正则表达式的元字符。

# -v:显示不被匹配到的行

[root@localhost Desktop]# cat test | grep -v -i aa

1.3 grep egrep fgrep

grep：可以使用基本正则表达式进行内容查找匹配
egrep：可以使用扩展的正则表达式进行内容查找匹配
fgrep：只能查找固定内容，无法使用正则进行匹配

# 查找所有a开头结尾是z的内容
[root@localhost ~]# grep 'a.*z' data

# 查找以a开头结尾为z，或者以a开头结尾为c的内容
[root@localhost ~]# egrep 'a.*z|a.*c' data

# 只查找内容是axz的内容
[root@localhost ~]# fgrep 'a*z' data
[root@localhost ~]# grep -F 'a*z' data

二：sed命令

在Linux中，sed（stream editor）是一种非常强大的流编辑器，它可以对文本进行过滤和转换。sed命令读取输入流（文件、管道等），对每一行应用你指定的编辑命令，然后将结果输出到标准输出（通常是屏幕，但也可以重定向到文件）。sed非常适合于执行文本替换、删除、插入和选择等操作。

2.1sed的基本语法：

 sed [-nefri] ‘command’ 输入文本

选项说明

-n∶使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN的资料一般都会被列出到萤幕上。但如果加上 -n 参数后，则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。

-e∶直接在指令列模式上进行 sed 的动作编辑；

-f∶直接将 sed 的动作写在一个档案内， -f filename 则可以执行 filename 内的sed 动作；

-r∶sed 的动作支援的是延伸型正规表示法的语法。(预设是基础正规表示法语法)

-i∶直接修改读取的档案内容，而不是由屏幕输出。

动作说明

a ∶新增， a 的后面可以接字串，而这些字串会在新的一行出现(目前的下一行)～

c ∶取代， c 的后面可以接字串，这些字串可以取代 n1,n2 之间的行！

d ∶删除，因为是删除啊，所以 d 后面通常不接任何内容；

i ∶插入， i 的后面可以接字串，而这些字串会在新的一行出现(目前的上一行)；

p ∶列印，亦即将某个选择的资料印出。通常 p 会与参数 sed -n 一起运作～

s ∶取代，可以直接进行取代的工作哩！通常这个 s 的动作可以搭配正规表示法！例如 1,20s/old/new/g

2.2 使用举例

定义文件test，内容如下

    HELLO LINUX!  
    Linux is a free unix-type opterating system.  
    This is a linux testfile!  
    Linux test

2.2.1：增加内容

增加一行

在test输出的第一行后面追加一句my name is dijia

[root@localhost sedTest]# sed '1a my name is dijia' test
HELLO LINUX!  
my name is dijia
Linux is a free unix-type opterating system.  
This is a linux testfile!

注意：只是将文字处理了，没有写入到文件里，文件里还是之前的内容。

查看文件的内容：

[root@localhost sedTest]# cat test
HELLO LINUX!  
Linux is a free unix-type opterating system.  
This is a linux testfile!

发现文件的内容并没有发生任何的变化

增加多行

在一行到第三行的后面追加上my name is dijia

[root@localhost sedTest]# sed '1,3a my name is dijia' test
HELLO LINUX!  
my name is dijia
Linux is a free unix-type opterating system.  
my name is dijia
This is a linux testfile!  
my name is dijia

2.2.2：插入内容

在最后一行插入byebye

[root@localhost sedTest]# sed '$a byby' test
HELLO LINUX!  
Linux is a free unix-type opterating system.  
This is a linux testfile!  
Linux test
byby

在这之前都是修改的输出内容，如果要修改文件中的真实内容加上一个 -i 就可以

如：

[root@localhost sedTest]# sed  - i '$a byby' test
HELLO LINUX!  
Linux is a free unix-type opterating system.  
This is a linux testfile!  
Linux test
byby

2.2.3：删除内容

删除的字符是d，用法跟前面也很相似，对匹配到的数据行，进行删除。

删除第一行

Linux test[root@localhost sedTest]# sed 1d test
Linux is a free unix-type opterating system.  
This is a linux testfile!

删除最后一行

[root@localhost sedTest]# sed '$d' test
HELLO LINUX!  
Linux is a free unix-type opterating system.  
This is a linux testfile!

删除1到3行

[root@localhost sedTest]#  sed '1,3d' test
Linux test[root@localhost sedTest]#

删除第二行到最后一行

[root@localhost sedTest]#  sed '1,3d' test
Linux test[root@localhost sedTest]#

删除Linux打头的

[root@localhost sedTest]#  sed '/Linux/d' test
HELLO LINUX!  
This is a linux testfile!

2.2.4:替换内容

将含有Linux的哪一行替换为dijia

Linux test[root@localhost sedTest]# sed '/Linux/c dijia' test
HELLO LINUX!  
dijia
This is a linux testfile!  
dijia

字符替换

s替换指定字符

语法： sed 's/原来的字符/新的字符/g' 文件名

将Linux的字符替换为dijia

[root@localhost sedTest]# sed 's/Linux/dijia/g' test
HELLO LINUX!  
dijia is a free unix-type opterating system.  
This is a linux testfile!  
dijia test[root@localhost sedTest]#

给每一行内容前都加上###

[root@localhost sedTest]# sed 's/^/###/g' test
###HELLO LINUX!  
###Linux is a free unix-type opterating system.  
###This is a linux testfile!  
###Linux test[root@localhost sedTest]#

给每一行内容后都加上###

[root@localhost sedTest]# sed 's/$/###/g' test
HELLO LINUX!  ###
Linux is a free unix-type opterating system.  ###
This is a linux testfile!  ###
Linux test###[root@localhost sedTest]#

这个其实就是正则表达式的语法，其他类似语法还有：

 ^ 表示一行的开头。如：/^#/ 以#开头的匹配。

 $ 表示一行的结尾。如：/}$/ 以}结尾的匹配。

 \< 表示词首。 如：\<abc 表示以 abc 为首的詞。This is  a cat abcTest  abcQQQ

 \> 表示词尾。 如：abc\> 表示以 abc 結尾的詞。
 . 表示任何单个字符。

 * 表示某个字符出现了0次或多次。

 [ ] 字符集合。 如：[abc] 表示匹配a或b或c，还有 [a-zA-Z] 表示匹配所有的26个字符。如果其中有^表示反，    如 [^a] 表示非a的字符

2.2.5:多个匹配

用-e命令可以执行多次匹配，相当于顺序依次执行两个sed命令：

同时给每行内容的前后都加上###

[root@localhost sedTest]# sed -e 's/^/###/g'  -e 's/$/###/g' sed-1
###HELLO LINUX!  ###
###Linux is a free unix-type opterating system.  ###
###This is a linux testfile!  ###
###Linux test###[root@localhost sedTest]# ^C

2.2.6：日志截取

定位日志

在系统应用集中部署的时候，很多日志因为太多难以定位，获取某段时间的日志是对运维人员非常关键的事情。

sed查看某时间的系统日志：

sed -n '/2024-03-17 09:25:55/,/2024-03-18 09:25:55/p'  logfile

sed查看某时间段到现在的系统日志：

sed  -n  '/2024-03-17 09:25:55/,$p'   logfile

三：awk命令

AWK 是一种处理文本文件的语言，是一个强大的文本分析工具。

之所以叫 AWK 是因为其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符

linux中有三剑客之称：三剑客之首就是 AWK

三剑客功能:

grep ：过滤文本

sed : 修改文本

awk : 处理文本

awk只要是用来格式化文本

3.1 基本语法

awk [参数] [处理内容] [操作对象]

参数说明

参数	说明
-F separator	指定字段分隔符。
-f file	从指定的文件中读取程序
-v var=value	定义awk程序中的一个变量及其默认值
-mf N	指定要处理的数据文件中的最大字段数
-mr N	指定数据文件中的最大数据行数
-W keyword	指定awk的兼容模式或警告等级

4.2 使用举例

4.2.1 从命令行读取程序脚本

awk 动作 文件名

准备一个文件test

## 4.2 使用举例

### 4.2.1 从命令行读取程序脚本

```
awk 动作 文件名
```

准备一个文件test

~~~shell
2 this is a test
3 Are you like awk
This's a test
10 There are orange,apple,mongo
1	zs	男	A11	80;90;100
2	ls	男	A12	80;50;60
3	ww	女	A13	30;20;40
4	aa	女	A14	50;20;40
5	zl	男	A15	50;60;30
~~~

打印第二行内容

[root@localhost awkTest]# awk '{print $2}' test
this
Are
a
There
zs
ls
ww
aa
zl

打印第一列和第四列的内容

[root@localhost awkTest]# awk '{print $1,$4}' test
2 a
3 like
This's 
10 orange,apple,mongo
1 A11
2 A12
3 A13
4 A14
5 A15
[root@localhost awkTest]#

打印以逗号分隔的第一列值和第二列值

[root@localhost awkTest]# awk -F ' ' '{print $1,$2}' test
2 this
3 Are
This's a
10 There
1 zs
2 ls
3 ww
4 aa
5 zl

匹配项中可以用正则表达式，比如：

查找以This开头的行

[root@localhost ~]# awk '/^This/' test3

查找以awk为结束的行

[root@localhost ~]# awk '/awk$/' test

匹配的就是严格以This开头的内容。

使用数据字段变量

awk会将如下变量分配给它在文本行中发现的数据字段(列)：

$0代表整个文本行；
$1代表文本行中的第1个数据字段；
$2代表文本行中的第2个数据字段；
$n代表文本行中的第n个数据字段。
!: 逻辑非
~ : 进行正则匹配(类似于关系表达式)

查找不包含is关键字的内容

[root@localhost awkTest]# awk '$0 !~ /is/' test
3 Are you like awk
10 There are orange,apple,mongo
1       zs      男      A11     80;90;100
2       ls      男      A12     80;50;60
3       ww      女      A13     30;20;40
4       aa      女      A14     50;20;40
5       zl      男      A15     50;60;30

查找包含is关键字的内容

[root@localhost awkTest]# awk '$0 ~ /is/' test
2 this is a test
This's a test

4.2.2 变量

wk中有不少内置的变量，比如$NF代表的是分割后的字段数量，相当于取最后一个。

NF: number filed 当前行分割后的字段个数。打印的时候，是取出最后一列

NR: number row 表示当前第几行

[root@localhost awkTest]# awk '{print $NF}' test
test
awk
test
orange,apple,mongo
80;90;100
80;50;60
30;20;40
50;20;40
50;60;30

输出当前行有几列，以及当前是第几行每行内容后的两个数字，一共有几列，是第几行

[root@localhost awkTest]# awk '{print $0,NF,NR}' test
2 this is a test 5 1
3 Are you like awk 5 2
This's a test 3 3
10 There are orange,apple,mongo 4 4
1       zs      男      A11     80;90;100 5 5
2       ls      男      A12     80;50;60 5 6
3       ww      女      A13     30;20;40 5 7
4       aa      女      A14     50;20;40 5 8
5       zl      男      A15     50;60;30 5 9

其他的内置变量还有：

变量名	说明
FILENAME：当前文件名
FS	字段分隔符，默认是空格和制表符。
RS	行分隔符，用于分割每一行，默认是换行符。
OFS	输出字段的分隔符，用于打印时分隔字段，默认为空格。
ORS	输出记录的分隔符，用于打印时分隔记录，默认为换行符。
OFMT	数字输出的格式，默认为％.6g。

执行输出结果的各个列，用指定符号分隔

[root@localhost awkTest]# awk '{print $1,$2,$3}' OFS="-" test
2-this-is
3-Are-you
This's-a-test
10-There-are
1-zs-男
2-ls-男
3-ww-女
4-aa-女
5-zl-男

4.2.3 函数

awk还提供了一些内置函数，方便对原始数据的处理。主要如下：

toupper()：字符转为大写。
tolower()：字符转为小写。
length()：返回字符串长度。
substr()：返回子字符串。
sin()：正弦。
cos()：余弦。
sqrt()：平方根。
rand()：随机数。

将每行内容的最后一列转为大写形式输出

[root@localhost awkTest]# awk '{print toupper($NF)}' test
TEST
AWK
TEST
ORANGE,APPLE,MONGO
80;90;100
80;50;60
30;20;40
50;20;40
50;60;30

将当前行的第一列转为大写内容输出，并输出当前行的长度

[root@localhost ~]# awk '{print toupper($1),length($0)}' test
2 16
3 18
THIS'S 13
10 31

4.2.3 条件

awk允许指定输出条件，只输出符合条件的行。输出条件要写在动作的前面：

awk '条件动作' 文件名

还是刚才的例子，用逗号分隔之后有好几个空白行，我们加上限制条件，匹配后为空的不显示：

[root@localhost awkTest]# awk -F, '$2!=""{print $2}' test
apple

4.2.3.1 if 语句

awk提供了if结构，用于编写复杂的条件。

将第一列内容大于2的行输出:

[root@localhost awkTest]# awk '{ if ( $1 > 2) print $0}' test
3 Are you like awk
This's a test
10 There are orange,apple,mongo
3       ww      女      A13     30;20;40
4       aa      女      A14     50;20;40
5       zl      男      A15     50;60;30

4.2.3.2 begin 语句 end 语句

语法格式:

awk 'BEGIN{ commands } pattern{ commands } END{ commands }'

多行操作

准备文件test02

111 222 333
444 555 666
777 888 999

[root@localhost awkTest]# awk 'BEGIN{print "开始"} {print $1 "-" $2 "-" $3} END{print "结束"}' test02
开始
111-222-333
444-555-666
777-888-99
结束

4.2.3.2 从文件中读取

假设有这么一个文件（学生成绩表）：

[root@localhost ~]# cat score.txt 
Marry   2143 78 84 77
Jack    2321 66 78 45
Tom     2122 48 77 71
Mike    2537 87 97 95
Bob     2415 40 57 62

我们的 awk 脚本如下：

#!/bin/awk -f
#运行前
BEGIN {
math = 0;
english = 0;
computer = 0;
 printf "NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL\n"
    printf "---------------------------------------------\n"
}
#运行中
{
math+=$3
english+=$4
computer+=$5
 printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5
}
#运行后
END {
   printf "---------------------------------------------\n"
    printf "  TOTAL:%10d %8d %8d \n", math, english, computer
    printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR
}

我们来看一下执行结果：

[root@localhost awkTest]# awk -f cal.awk score.txt
NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL
---------------------------------------------
Marry  2143     78       84       77      239
Jack   2321     66       78       45      189
Tom    2122     48       77       71      196
Mike   2537     87       97       95      279
Bob    2415     40       57       62      159
---------------------------------------------
  TOTAL:       319      393      350 
AVERAGE:     63.80    78.60    70.00
[root@localhost awkTest]#