awk应用

最新推荐文章于 2023-05-15 23:25:35 发布

weixin_52589052

最新推荐文章于 2023-05-15 23:25:35 发布

阅读量108

点赞数

文章标签： shell

本文链接：https://blog.csdn.net/weixin_52589052/article/details/112426002

版权

1、 awk的基础应用
1.1、概念
除了使用 sed 命令，Linux 系统中还有一个功能更加强大的文本数据处理工具，就是 awk。它诞生于 20 世纪 70 年代末期，这也许是它影响了众多 Linux 用户的原因之一。
AWK是一种优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一。awk命名: Aho、Weingberger 和 Kernighan三个人的姓的缩写。
awk也是一个数据处理工具！相较于 sed 常常作用于一整个行的处理， awk 则比较倾向于一行当中分成数个字段来处理。
和 sed 命令类似，awk 命令也是逐行扫描文件（从第 1 行到最后一行），寻找含有目标文本的行，如果匹配成功，则会在该行上执行用户想要的操作；反之，则不对行做任何处理。
1.1.1、 awk
在linux上
在这里插入图片描述
常用的是gawk，awk是gawk的链接文件
1.1.2、 awk 命令的基本格式为：
awk [-F field-separator] ‘commands’ filename
其中，[-F域分隔符]是可选的，因为awk使用空格或tab键作为缺省的域分隔符，因此如果要浏览域间有空格的文本，不必指定这个选项，如果要浏览诸如passwd文件，此文件各域以冒号作为分隔符，则必须指明-F选项，如：awk -F: ‘commands’ filename
commands 是awk要执行的命令动作。
filename是要处理的文件。filename可以是多于一个文件的文件列表，awk将按顺序处理列表中的每个文件。
在awk中，文件的每一行中，由域分隔符分开的每一项称为一个域。通常，在不指名-F域分隔符的情况下，默认的域分隔符是空格或tab键。
此命令常用的选项以及各自的含义，如表所示：
选项含义
-F fs 指定以 fs 作为输入行的分隔符，awk 命令默认分隔符为空格或制表符。
-v var=val 在执行处理过程之前，设置一个变量 var，并给其设备初始值为 val。
awk 的强大之处在于commands，它由2部分组成，分别为匹配规则和执行命令，如下所示：
‘匹配规则{执行命令}’
awk命令的完整格式：awd [-F field-separator] ‘匹配规则{执行命令}’ filename
这里的匹配规则，和 sed 命令中的匹配规则部分作用相同，用来指定执行命令可以作用到文本内容中的具体行（匹配条件），可以使用字符串（比如 /demo/，表示查看含有demo字符串的行）或者正则表达式指定。另外需要注意的是，整个commands是用单引号（’’）括起，而其中的执行命令部分需要用大括号（{}）括起来。
举个简单的例子：
[root@localhost ~]# awk '/^ $KaTeX parse error: Expected group after '^' at position 41: \dotsest.txt 在此命令中，/^̲$ / 是一个正则表达式，功能是匹配文本中的空白行，同时可以看到，执行命令使用的是 print 命令，此命令经常会使用，它的作用很简单，就是将指定的内容进行输出。因此，整个命令的功能是，如果 test.txt 有 N 个空白行，那么执行此命令会输出 N 个 Blank line。
注：在 awk 程序执行时，如果没有指定执行命令，则默认会把匹配的行输出；如果不指定匹配规则，则默认匹配文本中所有的行。
1.1.3、 ‘匹配规则{执行命令}’
任何awk语句都是由’匹配规则{执行命令}‘组成，一个awk中可以有多个语句。匹配规则决定执行命令的执行条件。
例如上面举的例子中’/^ $KaTeX parse error: Expected group after '^' at position 26: \dotsBlank line"}'，/^̲$ /就是匹配规则，print就是执行命令，当文件中有匹配/^$/条件的行是就会执行pirnt命令。
1.1.4匹配规则
一般使用关系表达式作为条件。这些关系表达式非常多，具体参考下面：
awk保留字 BEGIN 在awk程序一开始，尚未读取任何数据之前执行。BEGIN 后的动作只在程序开始时执行一次
awk保留字 END 在awk程序处理完所有数据，即将结束时执行。END 后的动作只在程序结束时执行一次
关系运算符 > 大于
< 小于
>= 大于等于
<= 小于等于
== 等于。用于判断两个值是否相等。如果是给变童赋值，则使用"=”
!= 不等于
匹配表达式 ~（匹配） value ~ /regexp/ 如果value匹配/regexp/，则返回真
!~（不匹配） value !~ /regexp/ 如果value不匹配/regexp/，则返回真
正则表达式 /正则表达式/ 如果在“//”中可以写入字符，则也可以支持正则表达式，如：/root/表示匹配含有root的行。
逻辑运算符 && 逻辑与
|| 逻辑或
例如：
[root@localhost ~]# awk -F: ‘ $7 / b a s h$ / {print $1}’ /etc/passwd
判断 $7 （第 7 个数据字段）的值是否匹配正则表达式 / b a s h$ /

[root@localhost ~]# awk -F: ‘ $7! / b a s h$ / {print $1}’ /etc/passwd
判断 $7 （第 7 个数据字段）的值是否不匹配正则表达式 / b a s h$ /

1.1.5、 awk 使用数据字段变量
awk 的主要特性之一是其处理文本文件中数据的能力，它会自动给一行中的每个数据字段分配一个变量。
默认情况下，awk 会将如下变量分配给它在文本行中发现的数据字段：
 $0 代表整个文本行；
 $1 代表文本行中的第 1 个数据字段；
 $2 代表文本行中的第 2 个数据字段；
 $n 代表文本行中的第 n 个数据字段。
所以在下面的例子中，awk 程序读取文本文件，只显示第 1 个数据字段的值：
[root@localhost ~]# cat data1.txt
One line of test text.
Two lines of test text.
Three lines of test text.
[root@localhost ~]# awk ‘{print $1}’ data1.txt //把文件中每行的空格当做分隔符
One
Two
Three
本例中用$1字段变量来表示第1个数据字段。当然，如果你要读取采用了其他字段分隔符的文件，可以用 -F 选项手动指定。

1.1.6、执行命令（动作action）：
awk的执行命令在大括号{ }内指明。动作大多数用来打印（即print指令），但是还有些更长的代码诸如i f和循环语句及循环退出结构。如果不指明采取动作，awk将打印出所有浏览出来的记录。
动作（Action）：
 格式化输出（print）；
 流程控制语句（if、while、for等）；
例如：显示passwd文件中第1个第6个字、段的信息
在这里插入图片描述
1.1.7、 awk中的BEGIN和END
语法:
awk [options] ‘BEGIN{ print “start” } 匹配规则{ commands } END{ print “end” }’ filename
其中：BEGIN END是AWK的关键字，因此必须大写；这两个部分开始块和结束块是可选的
BEGIN模块：BEGIN 的执行时机是"在 awk 程序一开始，尚未读取任何数据之前"。一旦BEGIN后的动作执行一次，当awk开始从文件中读入数据时，BEGIN 的条件就不再成立，所以BEGIN定义的动作只能被执行一次。通过BEGIN开始块我们可以用来设置变量，设置标题。
在这里插入图片描述

#这里定义了两个动作
#第一个动作使用BEGIN条件，所以会在读入文件数据前打印"print username and loginshell" （只会执行一次）
#第二个动作会在条件满足时打印文件的第1个字段和第7个字段
END模块：END也是awk的保留字，不过刚好和 BEGIN 相反。END 是在 awk 程序处理完所有数据，即将结束时执行的。END 后的动作只在程序结束时执行一次。
例如：
输出结尾输入"The End"，这并不是文档本身的内容，而且只会执行一次
在这里插入图片描述
1.1.8
AWK工作过程
通过上面我们可以知道;AWK它工作过程
1.如果BEGIN块存在，awk执行它指定的actions。
2.awk从输入文件中读取一行，称为一条输入记录。(如果输入文件省略，将从标准输入读取)，awk将读入的记录分割成多个字段，将第1个字段放入变量$1中，第2个字段放入$2，以此类推。$0表示整条记录。
3、把当前输入记录与awk中’匹配规则{执行命令}'中的“匹配规则”比较，看是否匹配，如果相匹配，就执行对应的‘执行命令’。如果不匹配，就跳过对应的执行命令。
4、awk读取输入的下一行，继续重复步骤2和3，这个过程一直持续，直到awk读取到文件尾。
5、当awk读完所有的输入行后，如果存在END，就执行相应的actions。

1.2、 awk的变量
1.2.9、 awk自定义变量
自定义变量：用户自己定义的变量，有两种形式
1、-v varname=value 变量名区分字符大小写
例如：统计用户数量：
在这里插入图片描述
范例：
统计某个目录（如/root）下的文件占用的字节数（以MB显示）：

在这里插入图片描述
注：之前的{}里都是只有一个print语句,其实print只是一个语句，而{}可以有多个语句，以;号隔开。
1.2.10、 awk内置变量（预定义变量）
awk除了可以自定义变量外，awk还提供一些内置量，常用的内置标量如下：
$n 当前记录（当前行）的第n个字段，比如n为1表示第一个字段，n为2表示第二个字段
$0 这个变量包含执行过程中当前行的文本内容
FILENAME 当前输入文件的名
FS 字段分隔符（默认是任何空格）
NF 表示字段数，在执行过程中对应于当前的字段数
NR 表示记录数，在执行过程中对应于当前的行号
FNR 各文件分别计数的行号
说明：
练习文件内容：
[root@localhost ~]# cat ceshi1.txt
wangwu 20 man
zhangsan 22 woman
lisi 23 woman
[root@localhost ~]# cat ceshi2.txt
chenzhe 20 man
xiaoming 22 woman
lier 23 woman
例1：NF：打印出每行有多少列：
在这里插入图片描述
如何显示最后两列的值呢？
分析：NF变量表示每行字段数，所以NF的值就是每行最后一个字段，NF减1就是倒数第二个字段。
注：引用NF变量，需要用美元符号
1.3、实例演示
1.3.1、 awk范例
范例1：提取网卡的IP地址在这里插入图片描述

2、 awk控制语句
2.1、 if语句
if (条件) print
if(条件){print}else{print}
if(条件){print}else if(条件){print}else{print}
2.1.1、范例1：
[root@localhost ~]# awk -F: ‘{if($3<1000) {print “system_user=”$1} else {print “program_user=”$1}}’ /etc/passwd
2.2、 while循环
语句：while(条件){语句} 如果条件为“真”进入循环，条件为“假”退出循环
在进行运算结果统计时，可以使用符号+=，意思是说我们可以把增加的结果赋值给符号的左边的变量，对哪个域操作就把哪个域写在符号的右边，如Total+=$3
2.2.3、范例1：统计成绩
[root@localhost ~]# cat score.txt
姓名性别城市科目语文数学英语总分平均分
马茵茵女上海文科 85 94 70 249 83.00
刘俊男上海理科 76 80 83 239 79.67
刘婷婷女广州理科 83 88 81 252 84.00
汤洁冰女广州理科 67 88 52 207 69.00
余小灵男天津理科 93 90 87 270 90.00
吴日新男南京文科 99 90 85 274 91.33
[root@localhost ~]# awk ‘{total=total+$5}END{print "YuWen score:"total}’ score.txt
YuWen score:503
[root@localhost ~]# awk ‘{total+= $KaTeX parse error: Expected 'EOF', got '}' at position 2: 5}̲END{print "YuWe\dots$ i}; print total}’ b.txt
34
59
57
特殊作用：它能够用来遍历数组中的元素
语法：for (var in array){语句}
2.4、偶数（next）
打印奇数或偶数行
[root@localhost ~]# awk 'NR%20{print NR,$0}’ /root/score.txt
2 马茵茵女上海文科 85 94 70 249 83.00
4 刘婷婷女广州理科 83 88 81 252 84.00
6 余小灵男天津理科 93 90 87 270 90.00
2.5.5、定义
数组是一个包含一系列元素的集合。
格式如下：
abc[1]=”xiaohong”
abc[2]=”xiaolan”
解释：
abc ：为数组名称
[1]、[2]：为数组元素下标，可以理解为数组的第1个元素、数组的第2个元素
”xiaohong”、”xiaolan”：元素内容
2.5.6、数组变量赋值的格式
2.5.6.1、 var[index]=element
说明:var==>是数组名
index===>是关联数组的下标
element===>是数组的元素值
2.5.6.2、数字做数组下标:
array[1]=”sun”
array[2]=”kai”
2.5.6.3、字符串做数组下标:
array[“first”]=”www”
array[“last”]=”name”
我们在引用数组变量的时候,必须要包含它的下标值,然后通过下标值来提取它相对应的元素值
[root@localhost ~]# awk 'BEGIN{

test[“a”]=“Mon”
test[“b”]=“Tue”
test[“c”]=“Wor”
print test[“b”]
}’

显示结果：
Tue
2.5.7、遍历数组中的元素
若要遍历数组中的每个元素，可以使用for循环：
for(var in array){print array[var]}
说明： for循环在每次循环时会将数组array的一个下标值赋给变量var，然后去执行大括号中的语句。还有一个需要注意的地方就是这个变量var中存储的是下标值而不是数组的元素值。我们可以把这个变量当作是数组的下标，然后来提取出对应元素值
[root@localhost ~]# awk 'BEGIN{

test[“a”]=“Mon”
test[“b”]=“Tue”
for(i in test)
{print "Index:“i,”-----value:"test[i]}
}’
Index:a -----value:Mon
Index:b -----value:Tue

2.5.8、数组应用范例
array[“index”]++ 每循环一次这个索引所对应的元素值加1（初始值默认是0）
它经常用来统计某个东西出现的次数,可以这样表示:
2.5.9.、范例：统计相同的网站出现的次数
测试文件：
[root@localhost ~]# cat c.txt
http://www.163.com
http://www.163.com
http://www.163.com
http://www.baidu.com
http://www.baidu.com
http://www.baidu.com
http://www.baidu.com
http://www.cnblogs.com
http://www.qq.com
http://www.163.com
http://www.baidu.com
http://www.baidu.com
http://www.qq.com
http://www.163.com
http://www.baidu.com

[root@localhost mnt]# awk -F"[/]+" ‘{print $2}’ c.txt |sort|uniq -c
5 www.163.com
7 www.baidu.com
1 www.cnblogs.com
2 www.qq.com

weixin_52589052

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
awk应用

1、 awk的基础应用1.1、概念除了使用 sed 命令，Linux 系统中还有一个功能更加强大的文本数据处理工具，就是 awk。它诞生于 20 世纪 70 年代末期，这也许是它影响了众多 Linux 用户的原因之一。AWK是一种优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一。awk命名: Aho、Weingberger 和 Kernighan三个人的姓的缩写。awk也是一个数据处理工具！相较于 sed 常常作用于一整个行的处理， awk 则比较倾向于一行当中分成
复制链接

扫一扫