基本介绍
awk是Linux开发下常用的一种对文本进行处理的工具,具有十分强大的功能。数据可以来源于标准输入、文件及外部变量,支持用户自定义函数和动态正则表达式等高级功能,且拥有许多内置的功能和函数,是开发中的一件利器。
通常,awk是以文件的一行为处理单位的,每接收文件的一行,然后执行相应的命令处理文本。
语法格式
awk [选项参数] 'script' var=value file(s)
或
awk [选项参数] -f scriptfile var=value file(s)
- -F fs:指定输入文件拆分隔符,fs是一个字符串或者一个正则表达式;
- -v var=value:赋值一个用户定义变量,将外部变量传递给awk;
- -f scripfile:从脚本文件中读取awk命令。
快速入门
a.txt文本内容
1,20,I
2,30,hello
3,21,am
4,32,world
5,43,yu
6,21,akw
7,22,zhan
b.txt文本内容
1,I,24
3,am,25
5,yu,26
7,zhan,27
1. 内置变量应用
要求:找出文件a和b以第一列为索引相同的行,并且每行输出索引、a中的第3列和b中的第2列。
awk -F ',' 'NR==FNR {db[$1]=$3} NR!=FNR {r=0.0; if($1 in db) {r=db[$1];printf("%s\t%s\t%s\n",$1,r,$3)}}' a.txt b.txt
1 I 24
3 am 25
5 yu 26
7 zhan 27
NR: 读取到所有文件的行数索引号;
FNR:读取到每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始。
2. BEGIN模块和END模块应用
要求:统计文件a的行数
awk -F ',' 'BEGIN {count=0;print "[start] init count is:",count} {count++;print $0} END{print "[END] final count is:",count}' a.txt
[start] init count is: 0
1,20,I
2,30,hello
3,21,am
4,32,world
5,43,yu
6,21,akw
7,22,zhan
[END] final count is: 7
BEGIN 模块:在开始处理输入文件之前执行,通常用于初始化变量中;
END 模块 : 在结束处理输入文件之后执行,通常用于执行最终计算中。
3. 正则应用
要求:匹配文件a中所有包含o的行
awk '/REG/{action} ' file,/REG/为正则表达式,可以将$0 中,满足条件的记录送入到:action 进行处理。
awk '/.*o.*/{print $0}' a.txt
2,30,hello
4,32,world
4. 循环结构应用
要求:输出文件a的每行第2列,且前面加上一个变量。
awk -F ',' 'BEGIN{count=0;sum=100;while(count <= sum){count++} print "count:",count} {if (NR >= 2 && NR <= 4) {printf("%s\t%s\n",count,$2)}}' a.txt
count: 101
101 30
101 21
101 32
5. 字符串函数应用
要求:查找文件a中第2列包含20的行,找到输出ok,否则输出not found
awk -F ',' 'BEGIN{str="21"} {print $1,index(str,$2)?"ok":"not found"}' a.txt
1 not found
2 not found
3 ok
4 not found
5 not found
6 ok
7 not found
内建变量
$n | 当前记录的第n个字段,字段间由FS分隔 |
$0 | 完整的输入记录 |
ARGC | 命令行参数的数目 |
ARGIND | 命令行中当前文件的位置(从0开始算) |
ARGV | 包含命令行参数的数组 |
CONVFMT | 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组 |
ERRNO | 最后一个系统错误的描述 |
FIELDWIDTHS | 字段宽度列表(用空格键分隔) |
FILENAME | 当前文件名 |
FNR | 各文件分别计数的行号 |
FS | 字段分隔符(默认是任何空格) |
IGNORECASE | 如果为真,则进行忽略大小写的匹配 |
NF | 一条记录的字段的数目 |
NR | 已经读出的记录数,就是行号,从1开始 |
OFMT | 数字的输出格式(默认值是%.6g) |
OFS | 输出记录分隔符(输出换行符),输出时用指定的符号代替换行符 |
ORS | 输出记录分隔符(默认值是一个换行符) |
RLENGTH | 由match函数所匹配的字符串的长度 |
RS | 记录分隔符(默认是一个换行符) |
RSTART | 由match函数所匹配的字符串的第一个位置 |
SUBSEP | 数组下标分隔符(默认值是/034) |
运算符
= += -= *= /= %= ^= **= | 赋值 |
?: | C条件表达式 |
|| | 逻辑或 |
&& | 逻辑与 |
~ ~! | 匹配正则表达式和不匹配正则表达式 |
< <= > >= != == | 关系运算符 |
空格 | 连接 |
+ - | 加,减 |
* / % | 乘,除与求余 |
+ - ! | 一元加,减和逻辑非 |
^ *** | 求幂 |
++ -- | 增加或减少,作为前缀或后缀 |
$ | 字段引用 |
in | 数组成员 |
内置函数
awk正则