awk---getline函数讲解:
getline函数是awk经常会用到的一个函数,但是awk和next的区别有什么呢,在next之后,awk会重新执行下一条语句,从awk语句的开始出去执行,但是getline则不是,他会跳到下一条语句去执行,但是是接着getline后面的语句去执行,并没有回到awk的头部语句。
下面结合几个例子来加以说明
1、awk 'BEGIN{"date"|getline d;split(d,a);print a[2]}'
将date函数的结果赋值给变量d。这是getline可以实现的。然后进行数组构建,然后输出。
2、file a
220 34 50 70
553 556 32 21
1 1 14 98 33
file b
10
8
2
要求文件a的每行数据与文件b的相对应的行的值相减,得到其绝对值。
awk ‘{getline j<”b”;for(i=1;i<=NF;i++)($i-j>0?$i=$i-j:$i=j-$i)}1’ a
210 24 40 60
545 548 24 13
1 1 12 96 31
解析:getline j<”b”,会将b文件中的数值赋值给b,然后后面进行检查和a文件的每列数值和b的大小比较,然后进行输出。
2、file a
aaa
bbb
ccc
ddd
file b
111 XXX
222 XXX
333 XXX
444 XXX
要求将 b中的XXX用a中的对应的行的数据进行替换。替换之后的结果为
awk '{getline j<"a";sub("XXX",j)}1' b
111 aaa
222 bbb
333 ccc
444 ddd
或者是下面的实现方法:
awk 'NR==FNR{a[FNR]=$1;next}{++i;$2=a[i]}1' a b
注意后面的处理++i,实现的是对应行的数据的替换。
3、统计每个小时内的访问总和
file
2011-07-20 09:57:01
239
2011-07-20 11:03:01
248
2011-07-20 10:29:01
250
2011-07-20 09:56:01
255
2011-07-20 10:45:01
269
2011-07-20 11:27:01
272
2011-07-20 10:28:01
273
2011-07-20 11:32:01
274
2011-07-20 10:44:01
303
2011-07-20 11:36:01
316
处理方法:
awk -F':' '{i=$1;getline;a[i]+=$1}END{for(i in a)print i,a[i]}' file
2011-07-20 09 494
2011-07-20 10 1095
2011-07-20 11 1110
解析:设置冒号为字段的分隔符,所以第一个字段就是时间(精确到小时的时间),将$1赋值给变量i,这时候i的值就是精确到小时的时间,然后getline,就会读取第二行的数据,a[i]+=$1,就会将a[2011-07-20 09]+=239,这时候需要注意的是,因为已经getline到了下一行了,所以此时的$1已经变成了数字239。最后就得出了所需的结果。
awk -F':' '{i=$1;getline x;a[i]+=x}END{for(i in a)print i,a[i]}' file
解析:此方法是将获取到的变量赋值给变量x,然后时间下标变量进行累加。
要求:先对第三列进行排序,并且计算第三列的后一行减去前一行的值:
file
r9_cz3IwGbu642/1 scaffold_3 9999914
TL_tKUFyGbu642/1 scaffold_2 999991
V4_CUctkGbu642/1 scaffold_30 999990
B6_SIhaqGbu642/1 scaffold_3 9999932
处理方法:
cat file | sort -k3|awk 'NR>1{$0=$0 FS $3-i}{i=$3}1'
V4_CUctkGbu642/1 scaffold_30 999990
TL_tKUFyGbu642/1 scaffold_2 999991 1
r9_cz3IwGbu642/1 scaffold_3 9999914 8999923
B6_SIhaqGbu642/1 scaffold_3 9999932 18
解析:首先对数据进行排序,在第二行进行处理,用第三列的数据减去上面的数据,这时候i=999990,然后到了本行一次在进行赋值,i=999991,一次求出所需要的数据。