awk去重总结:
翻看了http://blog.chinaunix.net/uid-2598756-id-293231.html文章,总结下awk去重
file1
aaa 111
bbb 222
ccc 333
ddd 444
aaa 111
bbb 222
方法一:
awk ‘++a[$0]==1{print $0}’ file1 or awk ‘{if(++a[$0]==1)print $0}’ file1
解释下上面的方法:
如果awk涉及到判断的话,可以将判断写在action的外面,写在外面的话可以不用if来说明,直接写好了要判断的条件即可,而后是数组解释,我们都知道如果一个文本字符串是第一次出现的话,那么他的值为0,所以aaa 111这个字符串在第一次出现的时候a[$0]的结果是0,然后结果++操作之后,结果变为1,从而进行输出。如果第二次出现,a[$0]的结果是1,经过++操作之后,结果不是1,所以不进行输出。从而去掉了重复的项。
方法二:
awk ‘!a[$0]++{print $0}’ file1
解释说明:
这个也是经典的去重的写法,如果$0是第一次出现的话,a[$0]的结果为0,!的结果是1,在进行++操作的话a[$0]结果就变称了1,从而进行输出。但是如果不是第一次的话,a[$0]的结果不是1,取反的话就是0,0++的结果就还是0,所以就不会进行输出。