什么是awk/gawk ?
awk是一种程序设计语言,主要用来处理数据和产生报表。
它对输入数据(文件、标准输入或命令的输出)逐行进行扫描,匹配指定的模式(pattern),并执行指定的操作(action)。
gawk是GNU下开发的awk,经过不断改进和更新,现已包含awk的所有功能。
awk/gawk的主要功能就是处理文本文件的数据,
它是通过自动将变量分配给每行的每个数据元素实现这一功能。
awk/gawk编程基础知识——记录、字段(域)和规则
记录
记录是单个的、连续长度的输入数据,是awk的操作对象。记录由记录分隔符限定,记录分隔符是一个字符串,并且定义为RS变量。在缺省情况下,RS的值设置为换行符,所以awk的缺省行为是将整行输入作为记录。
字段(域)
将每个记录进一步分解为称作字段的单独的块。字段受字段分隔符FS限定。缺省的字段分隔符是任意数量的空白字符,包括制表符和空格字符。所以在缺省情况下,将输入行进一步分解为单独的单词(由空白字符分隔的任何字符组)
规则
规则是一些模式,后面跟着由换行分隔的操作。当awk执行一条规则时,它在输入记录中搜索给定模式的匹配项,然后对这些记录执行给定的操作(可以在规则中省略模式或操作):/pattern/ { action }
首先建一个stu.txt
-F:指定分隔符,可省略(默认空格或Tab位)
-V:调用外部Shell变量 variable
![请添加图片描述](https://img-blog.csdnimg.cn/0f052dff87564ef184c87fac879314f3.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5Lmd6ZiI, size_20,color_FFFFFF,t_70,g_se,x_16)
awk的语法格式
语法格式
简要语法:awk/gawk ‘pattern {action}’ filename
完整语法:
awk/gawk扫描filename中的每一行, 对符合模式pattern的行执行操作action。
awk/gawk程序是由多个pattern与action所组成,一个pattern后面跟一个Action。
Pattern(1) {Action(1)}
Pattern(2) {Action(2)}
Pattern(3) {Action(3)}
awk的语法格式
awk指令一定要用单引号括起
awk的动作一定要用花括号括起
模式可以是正则表达式、条件表达式或两种组合
多个动作之间用;分开
特例:
① gawk ‘pattern’ filename
显示所有符合模式pattern的行
awk ‘/bash/’ /etc/passwd
② gawk ‘{action}’ filename
对所有行执行操作action
who|awk ‘{print $2}’
pattern
awk中有如下几种Pattern:
(1)/regular expression/:正则表达式,是一个用斜线包围的Pattern.
例:
awk '/wang/{print "found wang\n" $2,$6}' stu.txt
(2)expression:当该表达式的值不为 0 或一个不是空的字串,则可视为符合.
awk ‘$6>=60 {print $2 “\t” $6}‘
Action
对所读取的记录进行某种特定的操作,由一条或多条语句或命令组成 ,语句、命令之间用分号进行分隔。
Action中的算式有算术、比较、布尔、条件。
Action中的语句可以是流程控制语句:
(1)if条件判断语句
(2)while循环语句
(3)do-while循环语句
(4)for循环语句
(5)break语句
(6)continue语句
(7)next、next file 、exit语句
Action流程控制语句— if
表达式
if (expression){
commands
}
else{
commands
}
例如
awk '{
if ($6<60) {print $6}
else {print $2":"$6}
}' stu.txt
Action流程控制语句—while
循环
while 循环的语法如下:while (expression){
commands
}
例如
awk 'BEGIN{i=1}
{
while(i<=NR)
{i++;
if($6>60 && NR>=2)
{print $6}
}
}' stu.txt
Action流程控制语句—next
、exit
next 和exit
next 指令用来告诉gawk 处理文件中的下一个记录,而不管现在正在做什么。语法如下:
{command1
command 2
command 3
next
command 4
}
程序只要执行到next指令,就跳到下一个记录从头执行命令。command4指令永远不会被执行。
程序遇到exit指令后,就转到程序的末尾去执行END,如果有END的话。
awk ‘{ if ($6>60) next;else sum+=$6;}
END {printf “sum=%d\n”,sum}’ stu.txt 统计不及格的和
Exit:只要有不及格的就打印提示 exit.sh
自动内部变量
awk的每次执行,都建立了一些缺省的变量,也叫做内部变量,这些变量有固定的名字和固定的含义,它们在程序运行期间可以随时被引用。其具体定义如下:
FS
: 输入记录字段间的分隔符(默认是空格和制表符)
RS
: 输入记录的分隔符(默认是NEWLINE)
OFS
: 输出记录字段间的分隔符(默认是空格)
ORS
: 输出记录的分隔符(默认是NEWLINE)
NR
: 当前行数
NF
: 当前记录字段数
ARGC
: 命令行参数个数
ARGV
: 命令行参数数组
自动内部变量–OFS
awk/gawk常用输出函数
1、print函数:
用于不需要复杂格式的简单输出,print 格式:print item1, item2, …
例如:
$ ps -e | gawk ‘/ 05 / {print “tty05: ” $4, $1}’
(查看5号终端上的用户现在在干什么及其PID)
2、printf函数:
高级格式化输出函数. 用法与C语言中相同.
格式: printf (format, item1, item2, …)
实例: ps | gawk '{if(NR!=1)printf "PID:%5d\t\t%s\n",$1,$4}'
输入
1、从标准输入设备(键盘)输入
格式: gawk ‘pattern {action}’
由于未指定输入数据来源, 缺省情况下从标准输入设备(键盘)读取数据. 键盘上每输入一行, gawk就处理一行, 直到结束进程。
例:
、从其它命令输入
格式: command | gawk ‘pattern’
command | gawk ‘{action}’
command | gawk ‘pattern {action}’
例:
推荐https://blog.csdn.net/jsut_rick/article/details/78287744