cat access.2012010.log | awk '{a[$1]++} END {for(b in a) print b"\t"a[b]}' | sort -k2 -r | head -n 5

cat access.20120104.log | awk '{a[$1]++} END {for(b in a) print b"\t"a[b]}' | sort -k2 -r | head -n 5

[jifeng@jifeng01 hadoop]$ cat access.20120104.log | awk '{a[$1]++} END {for(b in a) print b"\t"a[b]}' | sort -k2 -r | head -n 5   
210.51.237.245  998
180.168.213.182 995
124.205.50.21   994
192.250.46.129  993
211.94.163.244  991
1: {a[$1]++} 

对于awk 'a[$1]++',需要了解3个知识点
1、awk数组知识
2、awk的基本命令格式 awk 'pattern{action}'
    省略action时,默认action是{print},如awk '1'就是awk '1{print}'
3、var++的形式:先读取var变量值,再对var值+1

最后实现的效果就是去除$1重复的行,并计算次数

等同于这个 awk '{a[$1]++} {print $1"->"a[$1]} ' access.20120104.log

access.20120104.log太多,只显示前面10条,测试下

[jifeng@jifeng01 hadoop]$  awk 'NR==1,NR==10 {print $0}' access.20120104.log >acc.txt
[jifeng@jifeng01 hadoop]$ awk '{a[$1]++} {print $1"->"a[$1]} ' acc.txt
120.197.87.216->1
123.126.50.73->1
203.208.60.187->1
114.112.141.6->1
114.112.141.6->2
110.6.179.88->1
116.205.130.2->1
114.112.141.6->3
114.112.141.6->4
110.75.173.35->1

2.{for(b in a) print b"\t"a[b]}

取出数组中的下标 b,也就是IP地址和a[b]它的个数

数组的使用

<1>建立数组

  1. array[index] = value :数组名array,下标index以及相应的值value。
<2>读取数组值
  1. { for (item in array)  print array[item]} # 输出的顺序是随机的
  2. {for(i=1;i<=len;i++)  print array[i]} # Len 是数组的长度
<3>多维数组,array[index1,index2,……]:SUBSEP是数组下标分割符,默认为“\034”。可以事先设定SUBSEP,也可以直接在SUBSEP的位置输入你要用的分隔符,如:
  1. awk 'BEGIN{SUBSEP=":";array["a","b"]=1;for(i in array) print i}'
  2. a:b
  3. awk 'BEGIN{array["a"":""b"]=1;for(i in array) print i}'
  4. a:b
3: sort排序

-k来指定列数

-t选项,后面可以设定间隔符

-n选项,要以数值来排序

-r选项 sort默认的排序方式是升序,如果想改成降序,就加个-r

-u选项,就是在输出行中去除重复行

4:head

 head [参数]... [文件]...  

命令参数:

-q 隐藏文件名

-v 显示文件名

-c<字节> 显示字节数

-n<行数> 显示的行数


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值