shell 编程三剑客之三:awk 详解

awk是一门强大的文本分析工具,适用于数据处理任务,如格式转换、有效性验证、搜索、求和和打印报表。其核心是模式和动作,通过正则表达式和内建变量进行复杂匹配和操作。awk程序包含BEGIN和END块,用于输入前后的初始化和收尾,以及处理输入行的模式和动作。此外,它支持条件语句、循环、数组、自定义函数和流程控制,能进行高效的文本处理和数据分析。
摘要由CSDN通过智能技术生成

一. 基本介绍

awk 是一门特殊的编程语言, 它非常适合处理一些任务(改变数据格式、验证数据的有效性、搜索特定的数据项、求和、打印报表等), 经常只需要一两行便可搞定。

一个 awk 程序由一系列的模式和动作组成, 这些模式与动作说明了在输入中搜索哪些数据, 以及当符合条件的数据被找到时, 应该执行什么操作。

awk 在输入文件集合中搜索与模式相匹配的输入行, 当找到一个匹配行时, 便会执行对应的动作。通过字符串, 数值, 字段, 变量和数组元素的比较操作, 再加上正则表达式, 利用这些组合, 一个模式可以用来选择输入行, 而动作可以对选中的行作任意的处理。

二. awk 的语法

1. 命令行格式

2. 程序基本结构

awk 命令中的程序格式就是一个或多个这样的格式组成的:pattern { action }

awk 的基本操作是在由输入行组成的序列中, 陆续地扫描每一行, 搜索可以被模式(pattern)匹配的行。

每匹配一个模式, 对应的动作 (action)(可能包含多个步骤) 就会执行 。

例子:

$3 == 19 { print $1 }

建立一个文本文件:

# cat awk_demo
1 Adam 18 Boston
2 Bob 17 Charlotte
3 Chris 17 Dallas
4 David 19 Houston
5 Ellis 20 Illinois

如果只有模式,则会打印匹配这个模式的一整行:$3 == 19

# awk '$3==19' awk_demo
4 David 19 Houston

如果只有动作,对于每一个输入行,动作都会执行:{ print $1 }

# awk '{ print $1 }' awk_demo
1
2
3
4
5

运行完整命令的效果如下所示:

# awk '$3==19 { print $1 }' awk_demo
4

3. 正则表达式

在模式匹配时使用,具体规则请看神奇的正则表达式_yspg_217的博客-CSDN博客

4. 模式(pattern)的格式

expression { statements }

每碰到一个使 expression 为真的输入行, statements 就执行。expression 为真指的是其值非零或非空

/regular expression/ { statements }

当碰到这样一个输入行时, statements 就执行: 输入行含有一段字符串, 而该字符串可以被正则匹配 

compound expression { statements }

一个复合模式将表达式用 &&(AND), ||(OR), !(NOT), 以及括号组合起来; 当 compound pattern 为真时, statements 执行

pattern1, pattern2 { statements }

一个范围模式匹配多个输入行, 这些输入行从匹配 pattern1 的行开始, 到匹配 pattern2 的行结束 (包括这两行), 对这其中的每一行执行 statements

BEGIN { statements }

在输入被读取之前, statements 执行一次

END { statements}

当所有输入被读取完毕之后, statements 执行一次

5. 两种特殊的模式(BEGIN END)

BEGIN 与 END 这两个模式不匹配任何输入行。

当 awk 从输入读取数据之前, BEGIN 的语句开始执行; 当所有输入数据被读取完毕, END 的语句开始执行。于是, BEGIN 与 END 分别提供了一种控制初始化与收尾的方式。

BEGIN 与 END 不能与其他模式作组合。如果有多个 BEGIN, 与其关联的动作会按照它们在程序中出现的顺序执行, 这种行为对多个 END 同样适用。通常将 BEGIN 放在程序开头, 将 END 放在程序末尾。

BEGIN 与 END 是唯二的不能省略动作的模式。

6. 动作(action)的格式

有时候动作会非常简单: 一条单独 的打印语句或赋值语句。

在有些时候, 动作有可能是多条语句, 语句之间用换行符或分号分开。

参数类型:

常量:字符串,数值

变量:自己定义

内建变量:awk 系统原生的变量

字段变量:$1, $2, … , $NF(NF表示当前行的字段的数目)

7. 内建变量

首先介绍两个重要的概念,字段(Field)和记录(Record):

记录(Record):默认一行内容代表一个记录

字段(Field):一个记录包括多个字段

内建变量意义默认值
ARGC命令行参数的个数
ARGV命令行参数数组
FILENAME当前输入文件名
FNR当前输入文件的记录个数
FS控制着输入行的字段分隔符" "
NF当前记录的字段个数
NR到目前为止读取的记录数量
$0当前行的全部内容
$n当前行第n个字段的内容
OFMT数值的输出格式"%.6g"
OFS输出字段分隔符" "
ORS输出记录分隔符"\n"
RLENGTH被函数 match 匹配的字符串长度
RS控制着输入行记录的分隔符"\n"
RSTART被函数 match 匹配的字符串的开始
SUBSEP下标分隔符"\034"
# awk '{print ARGC}' awk_demo
2
2
2
2
2

# awk '{print ARGV[ARGC-2]}' awk_demo
awk
awk
awk
awk
awk

# awk '{print ARGV[ARGC-1]}' awk_demo
awk_demo
awk_demo
awk_demo
awk_demo
awk_demo

# awk '{print FILENAME}' awk_demo
awk_demo
awk_demo
awk_demo
awk_demo
awk_demo

# awk '{print FNR}' awk_demo
1
2
3
4
5

# awk -v FS=" " '{print $2}' awk_demo
Adam
Bob
Chris
David
Ellis

# awk '{print NF}' awk_demo
4
4
4
4
4

# awk '{print NR}' awk_demo
1
2
3
4
5

# awk 'BEGIN {OFS=":"} {print $1,$2}' awk_demo
1:Adam
2:Bob
3:Chris
4:David
5:Ellis

# awk 'BEGIN {OFS=":"} {print $1 $2}' awk_demo
1Adam
2Bob
3Chris
4David
5Ellis

# awk 'BEGIN {OFS=":"; ORS="\t"} {print $1,$2}' awk_demo
1:Adam	2:Bob	3:Chris	4:David	5:Ellis

# awk 'BEGIN {RS=" "} {print}' awk_demo
1
Adam
18
Boston
2
Bob
17
Charlotte
3
Chris
17
Dallas
4
David
19
Houston
5
Ellis
20
Illinois

8. 运算符与代数函数

运算符
+
-
*
/
%取余
^或**乘方
++加1
--减1
+=a+=b 等价于 a=a+b
-=a-=b 等价于 a=a-b
*=a*=b 等价于 a=a*b
/=a/=b 等价于 a=a/b
%=a%=b 等价于 a=a%b
^=a^=b 等价于 a=a^b
<小于
>大于
<=小于等于
>=大于等于
==等于
!=不等于
~匹配
!~不匹配
||逻辑或
&&逻辑与
!逻辑非
代数函数
sin(x)x的正弦
cos(x)x的余弦
exp(x)自然对数的x次方
int(x)x取整
log(x)ln(x)
sqrt(x)x的开方
atan2(y,x)arctan(y/x),取值范围是-pi~pi
rand()伪随机数[0,1)
srand()x设置为新的种子,返回旧种子的值,如果没有x,就用当天时间

实例函数:

# cat awk_s.awk
NR==1{
	print $1"加"$2 "=" $1+$2
	print $1"减"$2"=" $1-$2
	print $1"乘"$2"=" $1*$2
	print $1"除以"$2"=" $1/$2
	print $1"对"$2"取余=" $1%$2
	print $1"的"$2"次方=" $1^$2
	print $1"的自增=" $1++
	print $1"的自减=" $1--
	print "自然对数的"$1"次幂=" exp($1)
	print $3"取整=" int($3)
	print $1"的对数=" log($1)
	print $1"的开方=" sqrt($1)
	print $2/$1"的arctan值=" atan2($2,$1)
	print "随机数=" rand()
	print "旧的种子值=" srand($3)
}
NR>1{
	print $1"的正弦=" sin($1)
	print $1"的余弦=" cos($1)
}

示例文本文件: 

# cat awk_demo2
2 1 3.14
0
15
30
45
60
90

执行结果: 

# awk -f awk_s.awk awk_demo2
2加1=3
2减1=1
2乘1=2
2除以1=2
2对1取余=0
2的1次方=2
2的自增=2
3的自减=3
自然对数的2次幂=7.38906
3.14取整=3
2的对数=0.693147
2的开方=1.41421
0.5的arctan值=0.463648
随机数=0.237788
旧的种子值=1
0的正弦=0
0的余弦=1
15的正弦=0.650288
15的余弦=-0.759688
30的正弦=-0.988032
30的余弦=0.154251
45的正弦=0.850904
45的余弦=0.525322
60的正弦=-0.304811
60的余弦=-0.952413
90的正弦=0.893997
90的余弦=-0.448074

 9. 输出方法(print printf)

重点介绍一下printf:

格式为:printf( format-expression [, arguments] ) 

 format-expression 中的格式控制符:

fmt$1printf("fmt",$1)
%c98b
%d98.598
%5d98.5   98
%e98.59.850000e+01
%f98.598.500000
%7.2f98.5  98.50
%g98.598.5
%.6g98.598.5
%o98142
%06o98000142
%x9862
%X9862
|%s|"Feburary"|Feburary|
|%10s|Feburary|  Feburary|
|%-10s|Feburary|Feburary  |
|%.3s|Feburary|Feb|
|%10.3s|Feburary|       Feb|
|%-10.3s|Feburary|Feb       |
%%Feburary%

%c ASCII字符 

%d 十进制数 

%e 浮点数([-]d.precisione[+-]dd)                                            

%f 浮点数([-]ddd.precision)                                                     

%g %e或%f的变形,去掉结尾的零 

%o 无符号八进制数                                                                 

%s 字符串                                                                                  

%x 无符号十六进制数,a-f表示9-15 

%X 无符号十六进制数,A-F表示9-15 

%% 百分号

% 与控制字符之间可以出现额外的参数: 

- 表达式在它所处的域中左对齐

width        当需要时, 把域的宽度填充到该值, 前导的 0 表示用 0 填充 

.prec        字符串最大宽度, 或小数点后保留的位数 

转义字符:

\a 警告 

\b 退格 

\f 换页符 

\n 换行符 

\r 回车 

\t 水平制表 

\v 垂直制表 

\ddd 1~3位的8进制数 

\xhex 16进制数 

\c 任意字符

# awk '{print $2, "comes from", $4}' awk_demo
Adam comes from Boston
Bob comes from Charlotte
Chris comes from Dallas
David comes from Houston
Ellis comes from Illinois

10. 内建函数

gsub(r,s)将$0中所有r替换为s,返回替换次数
gsub(r,s,t)将t中所有r替换为s,返回替换次数
index(s,t)返回t在s中第一次出现的位置,没出现返回0
length(s)返回s包含的字符个数
match(s,r)测试s是否包含r匹配的子串,返回子串的起始位置或0;设置RSTART和RLENGTH
split(s,a)用FS将s分割到数组a中,返回字段的个数
split(s,a,fs)用fs将s分割到数组a中,返回字段的个数
sprintf(fmt,expr-list)根据格式字符串fmt返回格式化后的expr-list
sub(r,s)将$0的最左最长的、能被r匹配的子字符串替换为s,返回替换次数
sub(r,s,t)将t的最左最长的、能被r匹配的子字符串替换为s,返回替换次数
substr(s,p)返回s中从位置p开始的后缀
substr(s,p,n)

返回s中从位置p开始,长度为n的子字符串 

toupper(s)

变大写,返回变化后的字符串

tolower(s)

变小写,返回变化后的字符串

system()使用 shell 命令
# awk '{gsub(/s/,"t");print}' awk_demo
1 Adam 18 Botton
2 Bob 17 Charlotte
3 Chrit 17 Dallat
4 David 19 Houtton
5 Ellit 20 Illinoit

# awk '{print index($0,"s")}' awk_demo
13
0
7
15
7

# awk '{print length($0)}' awk_demo
16
18
17
18
19

# awk '{print match($0, "s"),RSTART,RLENGTH}' awk_demo
13 13 1
0 0 -1
7 7 1
15 15 1
7 7 1

# awk '{print split($0,a),a[1],a[2],a[3],a[4]}' awk_demo
4 1 Adam 18 Boston
4 2 Bob 17 Charlotte
4 3 Chris 17 Dallas
4 4 David 19 Houston
4 5 Ellis 20 Illinois

# awk '{print sprintf("%-10s",$2)}' awk_demo
Adam
Bob
Chris
David
Ellis

# awk '{print sub(/s/, "t");print}' awk_demo
1
1 Adam 18 Botton
0
2 Bob 17 Charlotte
1
3 Chrit 17 Dallas
1
4 David 19 Houtton
1
5 Ellit 20 Illinois

# awk '{print substr($0,12)}' awk_demo
oston
arlotte
Dallas
Houston
Illinois

# awk '{print substr($0,12,5)}' awk_demo
oston
arlot
Dalla
Houst
Illin

# awk '{print toupper($4)}' awk_demo
BOSTON
CHARLOTTE
DALLAS
HOUSTON
ILLINOIS

# awk '{print tolower($4)}' awk_demo
boston
charlotte
dallas
houston
illinois

# awk 'BEGIN{system("echo 111")}'
111
# awk 'BEGIN{system("date")}'
Wed Mar 16 10:59:33 CST 2022

11. 流程控制语句

(1)条件语句:三种格式

if( expression ) 
     action1 
[else 
     action2] 

if ( expression ) { 
     statement1 
     statement2 
}

expression ? action1 : action2
# cat awk_if.awk
{
	if ($1 <= 3)
		$1 = 5 - $1
	else
		$1 = 10 - $1
	print
}

# awk -f awk_if.awk awk_demo
4 Adam 18 Boston
3 Bob 17 Charlotte
2 Chris 17 Dallas
6 David 19 Houston
5 Ellis 20 Illinois

(2)循环语句:三种格式

while (condition) 
       action

do 
action 
while (condition)

for ( set_counter ; test_counter ; increment_counter ) 
      action
# awk 'BEGIN{ i=10;while(i>=5) {print i;i--} }'
10
9
8
7
6
5

break:跳出循环体

# awk 'BEGIN{ i=10;while(i>=5) {if (i==7) {break} print i;i--} }'
10
9
8

continue:跳出当前循环

# awk 'BEGIN{ i=10;while(i>=5) {i--;if (i==7) {continue} print i} }'
9
8
6
5
4

(3)特殊流程控制:

getline:立刻读取下一行数据(复制给$0,重新设置NF、NR和FNR)

# awk '/A/ {getline;print}{print}' awk_demo
2 Bob 17 Charlotte
2 Bob 17 Charlotte
3 Chris 17 Dallas
4 David 19 Houston
5 Ellis 20 Illinois

next:继续处理下一行内容

# awk '/A/ {next;print}{print}' awk_demo
2 Bob 17 Charlotte
3 Chris 17 Dallas
4 David 19 Houston
5 Ellis 20 Illinois

exit:如果有END,就跳到END,没有就退出脚本。exit后可以跟一个数字,作为退出的值,默认是0,也可以跟一个表达式,表达式的值作为退出的值

# awk '/D/ {exit} {print} END{print 111}' awk_demo
1 Adam 18 Boston
2 Bob 17 Charlotte
111

12. 数组

# 数组定义
array[subscript] = value

# 数组遍历
for ( variable in array )
      action

# 判断下标是否存在
subscript in array

# 利用内建函数split生成数组
split(): n = split(string, array, separator)

#删除数组元素
delete array[subscript]

编辑一个实例脚本: 

# cat awk_array.awk
BEGIN{
	arrayA["a"]="A"
	arrayA["b"]="B"
	arrayA["c"]="C"
	for (key in arrayA)
		print key,arrayA[key]
	print "c" in arrayA
	delete arrayA
	print arrayA["c"]
	for (i=1;i<=5;i++)
		for (j=1;j<=5;j++)
			arrayB[i,j]=0
	for (key in arrayB)
		print key,":",arrayB[key]
}

{
	split($0, arrayC, " ")
	key=1
        while (key <= NF)
	    {
            print arrayC[key]
		    key++
	    }
}

这个脚本中,在BEGIN中首先定义了一个关联数组,然后遍历它,删除它。之后定义了一个模拟的二维数组,遍历它。最后使用 split 函数将 awk_demo 中的数据拆分成数组,也遍历。

# awk -f awk_array.awk awk_demo
a A
b B
c C
1

42 : 0
14 : 0
43 : 0
15 : 0
44 : 0
21 : 0
45 : 0
22 : 0
51 : 0
23 : 0
52 : 0
24 : 0
53 : 0
25 : 0
54 : 0
31 : 0
55 : 0
32 : 0
33 : 0
34 : 0
11 : 0
35 : 0
12 : 0
41 : 0
13 : 0
1
Adam
18
Boston
2
Bob
17
Charlotte
3
Chris
17
Dallas
4
David
19
Houston
5
Ellis
20
Illinois

13. 自定义函数

 statements可以包含一个return语句

function name (parameter-list) 
{ statements }

一个带有参数$1的函数被调用时($1是一个普通变量),函数接收到的参数是变量值的一份拷贝,不是变量本身。 当数组作为函数的参数时,是引用,可以改变原数组的元素。 在函数体内部,参数是局部变量(只在函数执行时存在),它们与程序中其他同名变量没有关联。 如果函数体内某个变量没有出现在参数列表中,它就是全局变量。 如果想设置私有的局部变量,将该变量包含在参数列表的末尾。 

# cat awk_func.awk
function max(x,y) {
	return x > y ? x : y
}
BEGIN{
	print max(1, max(2, 3))
}

# awk -f awk_func.awk
3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值