awk去重总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xuejinliang/article/details/51321573

awk去重总结:

翻看了http://blog.chinaunix.net/uid-2598756-id-293231.html文章,总结下awk去重

file1

aaa 111

bbb 222

ccc 333

ddd 444

aaa 111

bbb 222

方法一:

awk ‘++a[$0]==1{print $0}’  file1 or  awk ‘{if(++a[$0]==1)print $0}’ file1

解释下上面的方法:

如果awk涉及到判断的话,可以将判断写在action的外面,写在外面的话可以不用if来说明,直接写好了要判断的条件即可,而后是数组解释,我们都知道如果一个文本字符串是第一次出现的话,那么他的值为0,所以aaa 111这个字符串在第一次出现的时候a[$0]的结果是0,然后结果++操作之后,结果变为1,从而进行输出。如果第二次出现,a[$0]的结果是1,经过++操作之后,结果不是1,所以不进行输出。从而去掉了重复的项。

方法二:

awk ‘!a[$0]++{print $0}’ file1

 解释说明:

这个也是经典的去重的写法,如果$0是第一次出现的话,a[$0]的结果为0!的结果是1,在进行++操作的话a[$0]结果就变称了1,从而进行输出。但是如果不是第一次的话,a[$0]的结果不是1,取反的话就是00++的结果就还是0,所以就不会进行输出。

没有更多推荐了,返回首页