cat access.2012010.log | awk '{a[$1]++} END {for(b in a) print b"\t"a[b]}' | sort -k2 -r | head -n 5

最新推荐文章于 2023-09-08 09:44:17 发布

wind520

最新推荐文章于 2023-09-08 09:44:17 发布

阅读量4.8k

点赞数 1

分类专栏： Linux 文章标签： awk sort head

本文链接：https://blog.csdn.net/wind520/article/details/38944003

版权

Linux 专栏收录该内容

42 篇文章 0 订阅

订阅专栏

cat access.20120104.log | awk '{a[$1]++} END {for(b in a) print b"\t"a[b]}' | sort -k2 -r | head -n 5

[jifeng@jifeng01 hadoop]$ cat access.20120104.log | awk '{a[$1]++} END {for(b in a) print b"\t"a[b]}' | sort -k2 -r | head -n 5   
210.51.237.245  998
180.168.213.182 995
124.205.50.21   994
192.250.46.129  993
211.94.163.244  991

1: {a[$1]++}

对于awk 'a[$1]++'，需要了解3个知识点
1、awk数组知识
2、awk的基本命令格式 awk 'pattern{action}'
省略action时，默认action是{print}，如awk '1'就是awk '1{print}'
3、var++的形式：先读取var变量值，再对var值+1

最后实现的效果就是去除$1重复的行，并计算次数

等同于这个 awk '{a[$1]++} {print $1"->"a[$1]} ' access.20120104.log

access.20120104.log太多，只显示前面10条，测试下

[jifeng@jifeng01 hadoop]$  awk 'NR==1,NR==10 {print $0}' access.20120104.log >acc.txt
[jifeng@jifeng01 hadoop]$ awk '{a[$1]++} {print $1"->"a[$1]} ' acc.txt
120.197.87.216->1
123.126.50.73->1
203.208.60.187->1
114.112.141.6->1
114.112.141.6->2
110.6.179.88->1
116.205.130.2->1
114.112.141.6->3
114.112.141.6->4
110.75.173.35->1

2.{for(b in a) print b"\t"a[b]}

取出数组中的下标 b,也就是IP地址和a[b]它的个数

数组的使用

<1>建立数组