awk命令学习与练习--20个例子

最新推荐文章于 2023-03-26 20:24:33 发布

baba孩

最新推荐文章于 2023-03-26 20:24:33 发布

阅读量3.8k

点赞数 4

分类专栏： linux awk 文章标签： linux awk

本文链接：https://blog.csdn.net/weixin_46915621/article/details/107214207

版权

linux 同时被 2 个专栏收录

7 篇文章

订阅专栏

awk

1 篇文章

订阅专栏

awk命令学习

awk理论知识
awk命令练习

awk理论知识

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，默认以空格为分隔符将每行切片，切开的部分再进行各种分析处理。 awk是行处理器,相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息。
参数：
-F ：指定分隔符
-f ：调用脚本
-v ：定义变量
Begin{}：初始化代码块，在对每一行进行处理之前，初始化代码，主要是引用全局变量，设置FS分隔符
// ：匹配代码块，可以是字符串或正则表达式
{} ：命令代码块，包含一条或多条命令,多条命令用 ; 隔开
END{}：结尾代码块，在对每一行进行处理之后再执行的代码块，主要是进行最终计算或输出结尾摘要信息
字符：
$0 ：表示整个当前行
$1 ：每行第一个字段
NF ：字段数量变量
NR ：每行的记录号，多文件记录递增
FNR ：与NR类似，不过多文件记录不递增，每个文件都从1开始
\t ：制表符
\n ：换行符
FS ：BEGIN时定义分隔符
RS ：输入的记录分隔符，默认为换行符(即文本是按一行一行输入)
~ ：包含
!~ ：不包含
== ：等于，必须全部相等，精确比较
!= ：不等于，精确比较
&& ：逻辑与
|| ：逻辑或
+ ：匹配时表示1个或1个以上
/[0-9][0-9]+/ ：两个或两个以上数字
/[0-9][0-9]*/ ：一个或一个以上数字
OFS ：输出字段分隔符，默认也是空格，可以改为其他的
ORS ：输出的记录分隔符，默认为换行符,即处理结果也是一行一行输出到屏幕
-F [:#/] ：定义了三个分隔符

awk命令练习

1.以 : 为分隔，显示test中每行的第1和第7个字:

# awk 'BEGIN{FS=":"}{print $1,$7}' test.txt

在这里插入图片描述

2.以 : 为分隔，显示$3>999或第7个字段包含bash的行的第1和第7个字段:

# awk -F ":" '$3>999||$7~"bash"{print $3,$7}' test.txt

在这里插入图片描述

3.统计数据:

# cat pay.txt|awk 'NR==1{pitntf "%10s %10s %10s %10s\n",$1,$2,$3,$4,"Total"} \
> NR>=2{total=$2+$3+$4
> printf "%10s %10s %10s %10s\n",$1,$2,$3,$4,tatal}'

在这里插入图片描述

4.在输出文件之前输出start，处理完文件之后在输出end:

# awk 'BEGIN{print "start"}{print $0}END{print "end"}'

在这里插入图片描述

5.统计某个目录下所有文件的size总和:

# ll |awk '{x+=$5}END{print x}'

在这里插入图片描述

6.通过df命令查看当前系统磁盘占用率，查出占用率大于等于百分之20的磁盘名称以及磁盘占用率:

# df|awk -v FS=% '$0 ~ "/dev/sd" {print $1}' |awk '$NF>=20 {printf "DevName:%-10s Used:%s%%\n",$1,$5}'

在这里插入图片描述

7.用 ‘:’ 作为分隔符，打印所有第三段小于第四段的行:

# awk -F ':' '$3<$4' test.txt

在这里插入图片描述

8.用 ‘:’ 作为分隔符，打印第一段以及最后一段，并且中间用 ‘@’ 连接:

awk -F':' '{print $1"@"$NF}' test.txt

在这里插入图片描述

9.用 ‘:’ 作为分隔符，把整个文档的第三段相加:

# awk -F':' '{(sum+=$3)}; END {print sum}' test.txt

在这里插入图片描述

10.打印奇数行和偶数行:

# awk -F : '{if(NR%2!=0) print $0}' test.txt

在这里插入图片描述

11.打印UID不等于GID的用户名:

# awk -F : '{if($1!=$5) print $1,$5}' test.txt

在这里插入图片描述

12.显示所有以一个s或n开头的字符串:

# awk -F: '$1~/^[s|n]/{print $1}' test.txt

在这里插入图片描述

13.用‘:’做分隔符，使第六段字符等于2，并打印:

# awk -F: '$6=2 {print $0}' test.txt

在这里插入图片描述

14.打印第三个字段大于10并且第四个字段大于20的字段:

# awk -F: '$3>10 ||$4>20' test.txt

在这里插入图片描述

15.显示所有只有四个字符的第一段:

# awk -F: '{print $1}' test.txt |awk '{if(length($1)==4)print $1}'

在这里插入图片描述

16.如果第三段大于200则打印第1,3,6段:

# awk -F ':' '{if ($3>500) {print $1,$3,$6}}' test.txt

在这里插入图片描述

17.统计test文件中每个单词出现的次数:

# awk -F: '{for(i=0;i<=NF;i++){count[$1]++}}END{for(i in count){print i,count[i]}}' test.txt

在这里插入图片描述

18.提取出字符串Yd$C@M05MB%9&Bdh7dq+YVixp3vpw中的所有数字:

在这里插入图片描述
代码如下：

echo "Yd$C@M05MB%9&Bdh7dq+YVixp3vpw"|awk -F "[^[:digit:]]" '{for(k=1;k<=NF;k++){count[$k]}}END{for(i in count){printf "%s",i}printf "\n"}'

19.统计netstat -tan 中各状态的次数:

# netstat -tan |awk '/^tcp/{state[$NF]++}END{for(i in state){print i,state[i]}}'

在这里插入图片描述

20.统计出test文件中shell的种类和个数:

# awk -F: '{shell[$NF]++}END{for (i in shell){print i,shell[i]}}' test.txt

在这里插入图片描述