awk 通俗易懂教程

简介

awk 是一个报告生成器,它拥有强大的文本格式化的能力。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

语法

awk [options] ‘pattern{action}’ file

分割符

awk 是逐行处理,用输入分割符(FS)将每行分割成多个字段,经过action处理后又使用输出分割符(OFS)将各字段拼接起来输出。

  • 输入分割符: 可通过 -F 或 -V FS=“XXX” 指定,默认使用空格作为分割符(能自动将多个连续空格理解为一个分割符)
    • $0:表示整行
    • $1、$2 … $n:表示 第一、第二 … 第n 个字段
    • $NF:表示最后一个字段
    • NF:表示一共有几个字段,则$(NF-1) 表示倒数第二个字段
  • 输出分割符: 可通过 -V OFS=“XXX” 指定,默认使用空格作为分割符
>> cat awk-test 
a1       b1 c1
a2 b2 c2 d2 e2 f2

>> cat awk-test | awk '{print $1,$2,$3,"$4",$5,"hello"}' # 或: awk '{print $1,$2,$3,"$4",$5,"hello"}' awk-test 
a1 b1 c1 $4  hello
a2 b2 c2 $4 e2 hello

>> awk -v OFS="-" '{print $1,$2,$3,"$4",$5,"hello"}' awk-test 
a1-b1-c1-$4--hello
a2-b2-c2-$4-e2-hell

# 注:
#    某一行缺少某一列时不会输出任何文本
#    当内置变量加上双引号后,会被当成普通文本输出

变量

内置变量

  • FS:输入字段分隔符
  • OFS:输出字段分隔符
  • RS:输入行结束符,默认是以换行作为行结束符
  • ORS:输出行结束符,默认是以换行作为行结束符
>> cat awk-test 
a1 b1 c1~~a2 b2 c2
 
>> awk -v RS="~~" '{print $1,$2}' awk-test
a1 b1
a2 b2

>> awk -v RS="~~" -v ORS="****" '{print $1,$2}' awk-test
a1 b1****a2 b2****
  • NF:行的字段数量
  • NR:行号,当前处理的文本行的行号
  • FNR:各文件分别计数的行号
  • FILENAME:当前文件名
>> cat awk-test
a1 b1 c1
a2 b2 c2 
>> cat awk-test2
a1 b1 c1
a2 b2 c2 

>> awk '{print FILENAME,NR,$1,$2,$3}' awk-test awk-test2
awk-test 1 a1 b1 c1
awk-test 2 a2 b2 c2
awk-test2 3 a1 b1 c1
awk-test2 4 a2 b2 c2

>> awk '{print FILENAME,FNR,$1,$2,$3}' awk-test awk-test2
awk-test 1 a1 b1 c1
awk-test 2 a2 b2 c2
awk-test2 1 a1 b1 c1
awk-test2 2 a2 b2 c2

  • ARGC:命令行参数的个数
  • ARGV:数组,保存的是命令行所给定的各参数
>> awk 'BEGIN{print ARGV[0],ARGV[1],ARGV[2],ARGC}' awk-test awk-test2
awk awk-test awk-test2 3

自定义变量

  • 方法一:-v varname=value 变量名区分字符大小写
  • 方法二:在program中直接定义。
>> awk -v aa="hello" -v bb="awk" 'BEGIN{print aa,bb}'
hello awk

>> awk 'BEGIN{aa="hello";bb="awk";print aa,bb}'
hello awk

printf 格式化输出

上面用到的 print 只能实现简单的文本输出功能,并不能对文本格式进行改变。如果想要改变文本的格式,则需要awk中的另一个action:printf。awk中的printf 跟系统的printf命令相似,可参考printf 命令详解

>> cat awk-test
姓名 科目 成绩~~张小明 语文 88~~李小红 英语 90~~王小斌 数学 100 

>> awk -v RS="~~" '{print $1,$2,$3}' awk-test
姓名 科目 成绩
张小明 语文 88
李小红 英语 90
王小斌 数学 100

>> awk -v RS="~~" '{printf "%-4s\t %-4s\t %-4s\n",$1,$2,$3}' awk-test
姓名  	 科目  	 成绩  
张小明 	 语文  	 88  
李小红 	 英语  	 90  
王小斌 	 数学  	 100 

#注:
#   %s:字符串占位符,同理还有%f %d 等
#   \t:水平制表符,同理还有\n \r 等转义符
#   -: 左对齐
#   4:字符串的显示宽度为4,如果不满足4则用空格填充

模式Pattern

pattern是一个行条件表达式,只有满足该条件的行才会被处理。没有模式的情况下(空模式),awk会对每行都进行处理。

  • 空模式:没有pattern,会对每行数据都进行处理
  • BEGIN/END 模式:执行文本前/后的操作
  • 关系运算模式:只有满足该关系运算的行才会被处理
>> cat awk-test
张小明 语文 88
李小红 英语 90
王小斌 数学 100

#找出成绩大于90的学生
>> awk '$3>90{print $1,$2,$3}' awk-test
王小斌 数学 100
  • 正则模式:符合正则表达式的行才会被处理,正则表达式需要用两/包起来:/正则表达式/
>> cat awk-test
abcdefg
123456
324ag

#找出全为数字的那一行
>> awk '/^[0-9]*$/{print $0}' awk-test
123456
  • 范围模式:格式:’/正则1/,/正则2/{action}’,表示从正则1匹配到的行开始,到正则2匹配到的行结束,之间所有的行都会被处理。
>> cat awk-test
1 Allen Phillips
2 Green Lee
3 William Aiden James Lee
4 Angel Jack
5 Tyler Kevin
6 Lucas Thomas

#找出第一次出现Lee 到第一次出现Kevin 间的所有行
>> awk '/Lee/,/Kevin/{print $0}' awk-test
2 Green Lee
3 William Aiden James Lee
4 Angel Jack
5 Tyler Kevin

动作 action

  • if、if-else、if-else if-else:条件语句
>> cat awk-test
姓名 年龄
张三 15
李四 23
王五 50

>> awk 'NR!=1{if($2<18){print $1"是少年"}else if($2<30){print $1"是青年"}else{print $1"是中年"}}' awk-test
张三是少年
李四是青年
王五是中年
  • for(初始化;条件;更新){代码}、while(条件){代码}、do{代码}(条件):循环语句
>> awk 'BEGIN{for(i=0;i<10;i++){if(i==3){continue}else if(i>5){break}else{print i}}}'
0
1
2
4
5
  • exit()、next():exit:退出文本处理,进入END模式(如果有),next:直接跳过当前行
>> cat awk-test
aaaaa
bbbb
cccc
ddddd

>> awk 'END{print "finish"}{if(NR==1){next}else if(NR==3){exit}else{print $0}}' awk-test
bbbb
finish

数组

  • 数组的下标既可以是数字也可以是字符串
>> awk 'BEGIN{arr[0]=1;arr[1]=2;arr[2]=3;arr["a"]=4;arr["b"]=5;for(ele in arr){print ele}}'
a
b
0
1
2
  • 下标 in 数组: 可用来判断数组是否有该下标
>> awk 'BEGIN{arr[0]=1;arr[1]=2;arr[2]=3;if(1 in arr)print "arr有下标1";if(!(3 in arr))print "arr没有下标3"}'
arr有下标1
arr没有下标3
  • 访问不存在的下标,数组会自动创建该下标并赋值为空字符串
>> awk 'BEGIN{arr[0]=1;arr[1]=2;arr[2]=3;print arr[5];if(5 in arr)print "arr自动创建下标5"}'

arr自动创建下标5
  • 数组应用案例
# 知识补充 字符串跟数字相加时,字符串会转化成0
>> awk 'BEGIN{a="abc";b="";print a+1;print b+1}'
1
1

#需求:统计每个ip出现的次数
>> cat awk-test
192.168.1.1
192.168.1.2
192.168.1.3
192.168.1.6
192.168.1.3
192.168.1.3
192.168.1.2

>> awk '{ipArray[$1]++} END{for (i in ipArray){print i,ipArray[i]} }' awk-test
192.168.1.1 1
192.168.1.2 2
192.168.1.3 3
192.168.1.6 1

内置函数

随机函数

rand函数生成随机数,但是使用rand函数时,需要配合srand函数,否则rand函数返回的值将一直不变。

>> awk 'BEGIN{print rand()}'
0.237788
>> awk 'BEGIN{print rand()}'
0.237788
>> awk 'BEGIN{srand();print rand()}'
0.116798
>> awk 'BEGIN{srand();print rand()}'
0.748171

字符串函数

  • 字符串替换
    • gsub:替换指定范围内的所有字符串
    • sub:替换指定范围内第一个符合条件的字符串
>> cat awk-test
Allwn Phillips
Green Lee
William Ken Alle

>> awk '{gsub("l","6",$1);print $0}' awk-test
A66wn Phillips
Green Lee
Wi66iam Ken Allen

>> awk '{sub("l","6",$1);print $0}' awk-test
A6lwn Phillips
Green Lee
Wi6liam Ken Allen
  • length():获取长度
>> awk '{print $0,length()}' awk-test
Allwn Phillips 14
Green Lee 9
William Ken Allen 17
  • index():获取索引下标
>> awk '{print index($0,"ll")}' awk-test
2
0
3
  • split():分割
>> awk -v str="a-b-c" 'BEGIN{print "分成"split(str,arr,"-")"份";for(i in arr)print i}'
分成3份
1
2
3

其他函数

  • 数组排序
    • asort(arr):对数组arr进行排序,如果arr的下标是字符串,则下标会重置为数字
    • asort(arr,newArr):将数组arr的排序结果存到newArr数组中,则不会影响arr的下标
>> awk 'BEGIN{arr["a"]=1;arr["e"]=8;arr["g"]=3; asort(arr); for(i in arr){print i,arr[i]}}'
1 1
2 3
3 8

>> awk 'BEGIN{arr["a"]=1;arr["e"]=8;arr["g"]=3;asort(arr,newArr);\
print "arr数据如下:";\
for(i in arr)print i,arr[i];\
print "newArr 数据如下:";\
for(i in newArr)print i,newArr[i] }'
arr数据如下:
a 1
e 8
g 3
newArr 数据如下:
1 1
2 3
3 8

参考文章

awk从入门到放弃

AWTK开发手册-AWTK开发实践指南-中文手册.pdf AWTK = Toolkit AnyWhere 随着手机、智能手表等便携式设备的普及,用户对 GUI 的要求越来越高,嵌入式系统对高性能、高可靠性、低功耗、美观炫酷的 GUI 的需求也越来越迫切,ZLG开源 GUI 引擎 AWTK 应运而生。AWTK 全称为 Toolkit AnyWhere,是 ZLG 倾心打造的一套基于 C 语言开发的 GUI 框架。旨在为用户提供一个功能强大、高效可靠、简单易用、可轻松做出炫酷效果的 GUI 引擎,并支持跨平台同步开发,一次编程,终生使用。 最终目标: 支持开发嵌入式软件。 支持开发Linux应用程序。 支持开发MacOS应用程序。 支持开发Windows应用程序。 支持开发Android应用程序。 支持开发iOS应用程序。 支持开发2D游戏。 其主要特色有: 小巧。在精简配置下,不依赖第三方软件包,仅需要32K RAM + 256K FLASH即可开发一些简单的图形应用程序。 高效。采用脏矩形裁剪算法,每次只绘制和更新变化的部分,极大提高运行效率和能源利用率。 稳定。通过良好的架构设计和编程风格、单元测试、动态(valgrind)检查和Code Review保证其运行的稳定性。 丰富的GUI组件。提供窗口、对话框和各种常用的组件(用户可以配置自己需要的组件,降低对运行环境的要求)。 支持多种字体格式。内置位图字体(并提供转换工具),也可以使用stb_truetype或freetype加载ttf字体。 支持多种图片格式。内置位图图片(并提供转换工具),也可以使用stb_image加载png/jpg等格式的图片。 紧凑的二进制界面描述格式。可以手工编辑的XML格式的界面描述文件,也可以使用Qt Designer设计界面,然后转换成紧凑的二进制界面描述格式,提高运行效率,减小内存开销。 支持主题并采用紧凑的二进制格式。开发时使用XML格式描述主题,然后转换成紧凑的二进制格式,提高运行效率,减小内存开销。 支持裸系统,无需OS和文件系统。字体、图片、主题和界面描述数据都编译到代码中,以常量数据的形式存放,运行时无需加载到内存。 内置nanovg实现高质量的矢量动画,并支持SVG矢量图。 支持窗口动画、控件动画、滑动动画和高清LCD等现代GUI常见特性。 支持国际化(Unicode、字符串翻译和输入法等)。 可移植。支持移植到各种RTOS和嵌入式Linux系统,并通过SDL在各种流行的PC/手机系统上运行。 脚本化。从API注释中提取API的描述信息,通过这些信息可以自动生成各种脚本的绑定代码。 支持硬件2D加速(目前支持STM32的DMA2D和NXP的PXP)和GPU加速(OpenGL/OpenGLES/DirectX/Metal),充分挖掘硬件潜能。 丰富的文档和示例代码。 采用LGPL协议开源发布,在商业软件中使用时无需付费。 目前核心功能已经完成,内部开始在实际项目中使用了,欢迎有兴趣的朋友评估和尝试,期待您的反馈。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值