常用linux 文本分析命令摘要一

最新推荐文章于 2022-03-16 19:23:16 发布

zhanglq2014

最新推荐文章于 2022-03-16 19:23:16 发布

阅读量2k

点赞数

分类专栏： linux

本文链接：https://blog.csdn.net/zhanglq2014/article/details/41491595

版权

linux 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

有时我们需要对日志等信息进行统计，如某些数据的的平均值，方差，变异系数等。

less a.txt | awk '{cnt++; sum=sum+$0; print cnt ":"$0} END{print (cnt+1)":" sum/cnt}' |sort -rn -k 1 -t: |awk -F":" '{if(NR==1){AVG_XX=$2}else{count++; sum=sum+($2-AVG_XX)*($2-AVG_XX);}} END{print "AVG:" AVG_XX;print "STD:"sqrt(sum/(count-1)); print "CV:" sqrt(sum/(count-1))/AVG_XX;print "Total Count:" count}'

另外一种更加快速简单的统计方法。

less a.txt |awk '{cnt++; Ssum=Ssum+$0*$0; sum=sum+$0;} END{std=sqrt((Ssum*cnt-sum*sum)/(cnt*(cnt-1)));print "AVG:" sum/cnt; print "STD:"std;print "CV:"std*cnt/sum; print "Total Count:"cnt}'

查看所有jar文件是否包含某个类。

ls *.jar |awk '{print $0; cmd="jar -tvf "$0 "|grep -i ClassXXX --color";system(cmd)}'

统计常用的命令，同样也可以用来统计数据的分布特征
history |awk '{Data[$2]++; count++;}END {for (a in Data) print Data[a]" "Data[a]/count*100 "% " a;}'| grep -v "./" |column -c3 -s " " -t |sort -nr |nl |head -n20

从日志中仅过滤出日期和特定数字
echo "2014-10-14 23:19:20,852 [Thread-22] IN 23345, cost 47ms" sed 's/^$[^:]*$:.*cost $[0-9]\+$.*$/\1,\2/g' -->2014-10-14 23,47