《Linux命令行与shell脚本编程大全》第十九章初识sed和gawk

本文链接：https://blog.csdn.net/weixin_60720682/article/details/128038732

19.1 文本处理

19.1.1 sed编辑器

sed编辑器处理数据流的命令有两种输入方式：从命令行输入，或者存储在一个命令文本文件中。

sed命令格式：sed options script file

选项允许修改sed命令的行为，

sed命令选项：

-e script	在处理输入时，将script中指定的命令添加到已有的命令中
-f file	在处理输入时，将file中指定的命令添加到已有的命令中
-n	不产生命令输出，使用print命令来完成输出

如果需要用多个命令，要么使用-e选项在命令行中指定，要么使用-f选项在单独的文件中指定。

1. 在命令行定义编辑器命令

默认情况下，sed编辑器会将指定的命令应用到STDIN输入流上。可以直接将数据通过管道输入sed编辑器处理。

s命令会用斜线间指定的第二个文本字符串来替换第一个文本字符串模式。

除了修改单行数据，sed编辑器也可以处理整个文件中的多行数据。

sed编辑器并不会修改文本文件的数据。它只会将修改后的数据发送到 STDOUT。

2. 在命令行使用多个编辑器命令

在sed命令行上执行多个命令时，只要用-e选项就可以了，多个命令间加分号且命令之间没有空格

如果不用分号，也可以用bash shell的次提示符来分隔命令。需要输入第一个单引号标识出sed程序脚本的起始，bash会提示你输入更多命令，直到输入了标示结束的单引号。

注意：要在封尾单引号所在行结束命令。bash shell一旦发现了封尾的单引号，就会执行命令。

3. 从文件中读取编辑器命令

如果有大量要处理的sed命令，可以将它们放进一个单独的文件中，在sed命令中用-f选项来指定文件。

只需要将每条命令单独放一行，无需加分号。、

19.1.2 gawk程序

gawk能提供一个类编程环境来修改和重新组织文件中的数据。gawk程序提供了一种编程语言而不只是编辑器命令。

在gawk编程语言中，可以：

定义变量来保存数据；

使用结构化编程概念（比如if-then语句和循环）来为数据处理增加处理逻辑

通过提取数据文件中的数据元素，将其重新排列或格式化，生成格式化报告。

1. gawk命令格式

gawk options program file

gawk选项

-F fs	指定行中划分数据字段的字段分隔符
-f file	从指定的文件中读取程序
-v var=value	定义gawk程序中的一个变量及其默认值
-mf N	指定要处理的数据文件中的最大字段数
-mr N	指定数据文件中的最大数据行数
-W keyword	指定gawk的兼容模式或警告等级

2. 从命令行读取程序脚本

gawk程序脚本用一对花括号定义。需要将脚本命令放到两个{ }中。

还需要将脚本放到单引号中。如下：

gawk '{print "Hello World!"}'

直接执行这个命令不会输出任何内容，因为在运行这个程序时，它会一直等待从STDIN输入的文本。所以需要在数据流中输入文本。

输入Ctrl+D组合键终止gawk程序

3. 使用数据字段变量

gawk会自动给一行中的每个数据元素分配一个变量。gawk会将如下变量分配给它在文本行中发现的数据字段：

$0代表整个文本行；

$1代表文本行中的第1个数据字段；

$2代表文本行中的第2个数据字段；

$n代表文本行中的第n个数据字段。

gawk中默认的字段分隔符是任意的空白字符。

下图会显示test1.sh文件中每行第一个数据字段的值。

如果要采用其他的字段分隔符文件，可以用-F选项指定。

4. 在程序脚本中使用多个命令

要在命令行上的程序脚本中使用多条命令，只要在命令之间放个分号即可。

也可以用次提示符一次一行地输入程序脚本命令。同sed。

5. 从文件中读取程序

单条命令用{ }括起来即可

多条命令，一条命令放一行，用{ }括起来，不需要用分号。

注意，gawk 程序在引用变量值时无需使用$符号。

6. 在处理数据前运行脚本

BEGIN关键字gawk在读取数据前执行BEGIN关键字后指定的程序脚本。

7. 在处理数据后运行脚本

END关键字gawk会在读完数据后执行其后的程序脚本。

当gawk程序打印完文件内容后，它会执行END脚本中的命令。这是在处理完所有正常数据后给报告添加页脚的最佳方法。

19.2 sed编辑器基础

19.2.1 更多的替换选项

1.替换标记

替换命令在替换多行中的文本时默认情况下它只替换每行中出现的第一处。要让替换命令能够替换一行中不同地方出现的文本必须使用替换标记。

格式为s/pattern/replacement/flags

有4种可用的替换标记：

数字	表明新文本将替换第几处模式匹配的地方
g	表明新文本将会替换所有匹配的文本
p	表明原先行的内容要打印出来
w file	将替换的结果写到文件中