目录
1.前言
awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。
数据可以来自标准输入、一个或多个文件,或其它命令的输出。
它支持用户自定义函数和动态正则表达式等先进功能,
awk的处理文本和数据的方式是这样的,
它逐行扫描文件,从第一行到最后一行,
寻找匹配的特定模式的行,并在这些行上进行你想要的操作。
如果没有指定处理动作,则把匹配的行显示到标准输出(屏幕),
awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人,
分别是Alfred Aho、Peter Weinberger、 Kernighan。
2.工作原理
# awk -F: '{print $1,$3}' /etc/passwd
(1)awk使用一行作为输入,并将这一行赋给内部变量$0,每一行也可称为一个记录,以换行符结束
(2)然后,行被:(默认为空格或制表符)分解成字段(或域),每个字段存储在已编号的变量中,从$1开始,
最多达100个字段
(3)awk输出之后,将从文件中获取另一行,并将其存储在$0中,覆盖原来的内容,然后将新的字符串分隔
成字段并进行处理。该过程将持续到所有行处理完毕
3.语法
awk [options] 'commands' filenames (推荐)
==options:例如:-F 定义输入字段分隔符,默认的分隔符是空格或制表符(tab)
==command(时空):
BEGIN{} {} END{} //begin{ 语义:之前,操作之前做准备 } END{ 语义:之后。进行的操作 }
BEGIN{} #begin发生在行处理前(注意大写)
{} #行处理时,读一行执行一次
END{} #行处理后
示例:
#awk 'BEGIN{print 1/2} {print "ok"} END{print "-----------"}' /etc/hosts
###输出:1/2=0.5 输出ok 输出----------
0.5
ok
ok
ok
-----------
# awk 'BEGIN{print 1/2}{print "-----";print $0} END{print "HOHO"}' /etc/hosts
###BEGIN 输出:0.5 输出:-----;输出:行首 ###END 输出HOHO
0.5
-----
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
-----
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
HOHO
4.内部变量
FS OFS RS ORS FNR NR NF
==FS输入字段分隔符(默认空格)==
# awk -F: '{print $1, $3}' /etc/passwd | head -1
root 0 //定义 “ :”为分隔符
或
# awk -F'[ :\t]' '{print $1,$2,$3}' /etc/passwd | head -1
root x 0 //定于 “ :和 teb ”为分隔符
或
# awk 'BEGIN{FS=":"} {print $1,$3}' /etc/passwd | head -1
root 0 // 同1
==OFS输出字段分隔符==
# awk -F: '{print $1,$2,$3,$4}' /etc/passwd | head -1
root x 0 0 // : 为字段分隔福# awk -F: 'BEGIN{FS=":";OFS="+++"}{print $1,$2,$3,$4}' /etc/passwd | head -1
root+++x+++0+++0 // : 为字段分隔符。+++为输出分隔符
==RS输入记录(行)分隔符,默认换行符==
实验材料文档:
# awk '{print $0}' a.txt
111 222 333 444 555:666:777
# awk 'BEGIN{RS=" "}{print $0}' a.txt
111
222
333
444
555:666:777
///请注意,在此时记录已经不是行的概念了。RS 把空格分隔符 改为 (定义)空格为换行 分隔,打印行。分隔符定义”换行符“换成了”空格“
==ORS输出记录(行)分隔符,默认换行符==
不指定输出记录分隔符:
# awk 'BEGIN{ORS="+++"}{print $0}' a.txt
先指定输入分隔符把一行内容,展示成六列。再使用输出分隔符
# awk 'BEGIN{RS=" ";ORS="+++"}{print $0}' a.txt
111+++222+++333+++444+++555:666:777
输出记录分隔符换成了“+++”
==FNR多文件独立编号==
带编号,多份文件,每个文件带独立编号
==NR多文件汇总编号==
多份文件:编号不分文件
# awk -F: '{print NR, $0}' /etc/centos-release /etc/hosts
1 CentOS Linux release 7.3.1611 (Core)
2 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
3 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
# awk -F: '{print FNR, $0}' /etc/centos-release /etc/hosts
1 CentOS Linux release 7.3.1611 (Core)1 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
2 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
==NF字段总数==
# awk -F: '{print NF, $0}' /etc/passwd
7 root:x:0:0:root:/root:/bin/bash
7 bin:x:1:1:bin:/bin:/sbin/nologin
7 daemon:x:2:2:daemon:/sbin:/sbin/nologin
# awk -F: '{print NF, $NF}' /etc/passwd //共7列,输出第7列
7 /bin/bash
7 /sbin/nologin
7 /sbin/nologin
5.格式化输出(print函数)
Print 函数是在图形界面上(比如窗体)的打印。
printf 是在控制台下的打印,就是黑屏 dos 下的打印。
# date |awk '{print "Month: " $2 "\nYear: " $1}'
Month: 11月
Year: 2017年
// \n换行符
// 想输出文字,用引号
# awk -F: '{print "username is: " $1 "\t uid is: " $3}' /etc/passwd | head -1
username is: root uid is: 0// \t空格table
# awk -F: '{print "\tusername and uid: " $1,$3 "!"}' /etc/passwd | head -1
username and uid: root 0!
6.模式(正则表达)和动作
1.概念:
任何awk语句都由模式和动作组成。模式部分决定动作语句何时触发及触发事件。
如果省略模式部分,动作将时刻保持执行状态。每一行都会有动作。
模式可以是任何条件语句或复合语句或正则表达式。有模式的话,就是对模式对应的行进行动作。
2.字符串比较
# awk '/^root/' /etc/passwd
匹配/etc/passwd 文档中以root开头的行
# awk '$0 ~ /^root/' /etc/passwd
打印文档中像是以root开头的行
# awk '$0!~/^root/' /etc/passwd
打印文档中不是root开头的文档
# awk -F: '$1 ~ /^root/' /etc/passwd
以冒号为分隔符 打印第一列像是以root开头的行
3.数值比较
==目的==
比较表达式采用对文本进行比较,只有当条件为真,才执行指定的动作。比较表达式使用关系运算符,
用于比较数字与字符串。
==关系运算符==
语法 运算符 含义 示例
< 小于 x<y
<= 小于或等于 x<=y
== 等于 x==y
!= 不等于 x!=y
>= 大于等于 x>=y
> 大于 x>y
# awk -F: '$3 == 0' /etc/passwd //以 :为分隔符 打印第3列等于0行
# awk -F: '$3 == 1' /etc/passwd // /以 :为分隔符 打印第3行等于1行
# awk -F: '$3 < 10' /etc/passwd ///以 :为分隔符 打印第3行小于10的行
== 也可以用于字符串判断
# awk -F: '$7 == "/bin/bash"' /etc/passwd
# awk -F: '$1 == "alice"' /etc/passwd
==算数 运算==
文档中 打印 第3列 乘于10 大于500 的行
==多条件==
逻辑操作符和复合模式
语法: && 逻辑与 a&&b
|| 逻辑或 a||b
! 逻辑非 !a
示例:
# awk -F: '$1~/root/ && $3<=15' /etc/passwd 匹配第1列像是root,或者第3列像是小于等于15的
# awk -F: '$1~/root/ || $3<=15' /etc/passwd
# awk -F: '!($1~/root/ || $3<=15)' /etc/passwd
范围模式
语法 : awk ' / 从哪里 /,/ 到哪里 /' filename
示例:
# awk -F: '/adm/,/lpd/' /etc/passwd
从adm到ldp,显示出来,注意避免匹配重复的字段。
7.awk脚本编程
变量(awk调用变量)
==自定义内部变量 -v
#awk -v user=root -F: '$1 == user' /etc/passwd
-v定义变量
==外部变量 “ ‘ ”
单引号
# heihei=shutdown
# echo $heihei
shutdown
# awk -F: '$1 ~ "' " $heihei" '" ' passwd
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown7
注意使用单引号时,内部需要用双引转义
条件&判断
== if语句 ==
格式: { if (表达式) {语句;语句;...} }
示例:需求: 如果$3是0,就说他是管理员
awk -F: '{if($3==0) {print $1 " is administrator."}}' /etc/passwd
==if...else语句==
格式 : {if(表达式){语句;语句;...}else{语句;语句;...}}
{ if () {} else {} }
示例:
需求: 统计管理员和系统用户数量
awk -F: '{if($3==0){count++} else{i++}} END{print "管理员个数: "count ; print "系统用户数: "i}' /etc/passwd
==if...else if...else语句:==
格式: {if(表达式1){语句;语句;...}else if(表达式2){语句;语句;...}else if(表达式3){语句;语句;...}
else{语句;语句;...}}
if (条件){动作}elseif(条件){动作}else{动作}
if(){}else if (){}else if(){}else{}
示例:
需求: 题目:显示出三种用户的信息
管理员:管理员ID为0内置用户:用户ID<1000
普通用户: 用户ID>999
示例:
# awk -F: '{if($3==0){print $1," is admin "}else if ($3>999){print $1," is user"}else {print $1, " is sofo user"}}' /etc/passwd
示范:
root is admin
bin is sofo user
daemon is sofo user
adm is sofo user
lp is sofo user
sync is sofo user
shutdown is sofo user
halt is sofo user
mail is sofo user
operator is sofo user
games is sofo user
ftp is sofo user
nobody is sofo user
systemd-network is sofo user
dbus is sofo user
polkitd is sofo user
tss is sofo user
postfix is sofo user
chrony is sofo user
sshd is sofo user
aofa is user
apache is sofo user示例: 题目:统计出三种用户的数量
管理员数量:管理员ID为0内置用户数量:用户ID<1000
普通用户数量: 用户ID>999
#awk -F: '{if($3==0){i++} else if($3>999){k++} else{j++}} END{print i;print k;print j}' /etc/passwd
示例:
awk -F: '{if($3==0){i++} else if($3>999){k++} else{j++}} END {print i; print k; print j}' /etc/passwd
升级:
awk -F: '{if($3==0){i++} else if($3>999){k++} else{j++}}END{print "管理员个数: "i; print "普通用个数: "k; print "系统用户: "j}' /etc/passwd
循环
while
每行打印十次:
awk '{i=1;whilw(i<=10){print $0;i++}}' passwd
for
循环打印5个数字:
awk 'BEGIN{for(i=1;i<=5;i++){print i} }'
用BEGIN呢{},和END{}可以吗?可以需要有文件。
将每行打印10次:
awk -F: '{ for(i=1;i<=10;i++) {print $0} }' /etc/passwd
打印每一行的每一列:
awk -F: '{ for(i=1;i<=NF;i++) {print $i} }' passwd
说明:NF是最大列数,循环打印了每一列。
# awk -F: '{ for(i=1;i<=NF;i++) {print $i} }' passwd
root
x
0
0
root
/root
/bin/bash
数组:
定义数组
需求:将用户名定义为数组的值,打印第一个值
# awk -F: '{username[++i]=$1} END{print username[1]}' /etc/passwd
root以冒号为分隔符,定义数组username,统计第一列相同用户的个数,最后输出 数组[1]的数值
数组遍历:
按索引遍历:
# awk -F: '{username[x++]=$1} END{for(i in username) {print i,username[i]} }' /etc/passwd
-F:以冒号作为分隔符,
定义数组:username
$1第一行,作为统计对象,[x++]统计值作为索引
i in username 以数组作为循环对像,
i,username[i] 打印出数组索引,数组值
结果:10 games
11 ftp
12 nobody
13 systemd-bus-proxy
14 systemd-network
15 dbus
16 polkitd
30 chrony
17 abrt
31 ntp
18 unbound
awk编程案例
统计/etc/passwd中各种类型shell的数量
# awk -F: '{shells[$NF]++} END{ for(i in shells){print i,shells[i]} }' /etc/passwd
提示:
$NF 最后一列的字段内容
{}行处理
把统计的对象,作为索引。每次递增。
Print i 打印索引
Shells[i] 数组加索引,显示的就是值。
8.示例解释:
# awk '/west/' datafile
在文件datafile匹配west
# awk '/^north/' datafile
以north开头
# awk '$3 ~ /^north/' datafile
第三列 匹配 north开头的
# awk '/^(no|so)/' datafile
no或者so 开头
# awk '{print $3,$2}' datafile
打印第2,3列,逗号引用分隔符。默认引用OFS=" "# awk '{print $3 $2}' datafile
打印第23列,没有分隔符
# awk '{print $0}' datafile
打印记录,默认整行 //$0行
# awk 'END {print "Number of fields: "NF}' datafile
格式化文字“字段数”:列数 //打印结果: number of fields:(最后一列 位数)NF:最后一列位数
例:# awk '{print "Number of fields: "NF}' /etc/hosts
Number of fields: 5
Number of fields: 5$NF:最后一列内容
例:# awk '{print "Number of fields: "$ NF}' /etc/hosts 第五列
Number of fields: localhost4.localdomain4
Number of fields: localhost6.localdomain6
# awk '/northeast/{print $3,$2}' datafile
匹配north行的第3,2列
# awk '/E/' datafile
匹配包含E的所有行
# awk '/^[ns]/{print $1}' datafile
以n或s开头行的第一列
# awk '$5 ~ /\.[7-9]+/' datafile
第五列 匹配 .1到多个7,8,9的行
# awk '$2 !~ /E/{print $1,$2}' datafile
第二列 中不包含E的行,打印第1,2列。
# awk '$3 ~ /^Joel/{print $3 " is a nice boy."}' datafile
在第三列中匹配 以Joel开头的行,打印行中的第3列
# awk '$8 ~ /[0-9][0-9]$/{print $8}' datafile
匹配第八列,两个数字结尾,打印第八列
# awk '$4 ~ /Chin$/{print "The price is $" $8 "."}' datafile
在第四列中 匹配 Chin结尾的字段, 格式化文字加第八列带个点
# awk '/Tj/{print $0}' datafile
匹配Tj的行
# awk -F: '{print $1}' /etc/passwd
冒号分割打印第一列
# awk -F"[ :]" '{print NF}' /etc/passwd
以冒号或空格作为字段分隔符 ,并打印列数# awk -F"[ :]+" '{print NF}' /etc/passwd
以1到多个冒号或空格作为字段分隔符 ,并打印列数
# awk '$7 == 5' datafile
打印第七列是5 的行# awk '$2 == "CT" {print $1, $2}' datafile
打印第二列是CT的行的第1,2列
# awk '$7 != 5' datafile
打印第七列不等于5的行# awk '$7 < 5 {print $4, $7}' datafile
打印第七列小于5的行# awk '$6 > .9 {print $1,$6}' datafile
打印第6列大于.9的行的第1,6列# awk '$8 <= 17 {print $8}' datafile
打印第八列小于等于17的行的第八列# awk '$8 >= 17 {print $8}' datafile
打印第八列大于等于17的行的第八列# awk '$8 > 10 && $8 < 17' datafile
第八列大于10,并小于17的行。# awk '$2 == "NW" || $1 ~ /south/ {print $1, $2}' datafile
第2列有NW,或者,第一列包含south的行,只打印第1,2列# awk '!($8 == 13){print $8}' datafile
第八列不等于13,打印匹配行的第八列($8!=13)
# awk -F":" '/root/ {print $3 + 10}' /etc/passwd
匹配root字段,第3列+10并打印。# awk '/southem/{print $8 + 10}' datafile
匹配southerm,打印第八列+10、# awk '/southem/{print $5 + 10.56}' datafile
匹配southerm,打印第5列+10.56# awk '/southem/{print $8 - 10}' datafile
匹配southerm,打印第八列-10# awk '/southem/{print $8 / 2 }' datafile
匹配southerm,打印第八列除以2# awk '/southem/{print $8 / 3 }' datafile
匹配southerm,打印第八列除以3# awk '/southem/{print $8 * 2 }' datafile
匹配southerm,打印第八列乘以2# awk '/southem/{print $8 % 2 }' datafile
除以2 取余数# awk '$3 ~ /^Suan/ {print "Percentage: "$6 + .2 " Volume: " $8}' datafile
第三列正则匹配以Suan开头的,打印(Perentaged)+(第6列+0.2) 并且打印Volume+ 第八列
# awk '/^western/,/^eastern/' datafile
从以westem开头到以eastem开头的行
# awk '{print ($7 > 4 ? "high "$7 : "low "$7)}' datafile
//三目运算符 a?b:c 条件?成立结果1:不成立结果2
第三列小于4显示high$7
第三列大于4显示low$7
# awk '$3 == "Chris" {$3 = "Christian"; print $0}' datafile
赋值运算符,$3=christian
# awk -F":" '$3 == 0 {$3="chaoji";print $0}' /etc/passwd
root x chaoji 0 root /root /bin/bash
# awk '/Derek/ {$8+=12; print $8}' datafile
匹配Derek的行,为$8列赋值,$8=$8+12,再打印出$8
# awk '{$7%=3; print $7}' datafile
//$7 %= 3等价于$7 = $7 % 3
先将第七列取余,再赋值给第七列,打印第七列