awk
一、简介
AWK 是一种处理文本文件的语言,是一个强大的文本分析工具。
之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。
二、基本语法
//awk [选项] ‘脚本命令’ 文件名
awk [选项参数] 'script' var=value file(s)
或者
awk [选项参数] -f scriptfile var=value file(s)
常用的选项参数
参数 | 注释 |
---|---|
-F fs | 指定输入文件拆分隔符,fs是一个字符串或者是一个正侧表达式,如-F |
-v | 赋值一个用户定义变量 |
-f | 从脚本中读取awk命令 |
-W | 在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。 |
’ ’ | 引用代码块 |
// | 匹配代码块,可以是字符串或正则表达式 |
{} | 命令代码块,包含一条或多条命令 |
; | 多条命令使用分号分隔 |
BEGIN | 在 awk 程序一开始,未读取任何数据之前执行。BEGIN 后的动作只在程序开始时执行一次 |
END | 在 awk 程序处理完所有数据,即将结束时执行?END 后的动作只在程序结束时执行一次 |
举个栗子
源文件
[root@localhost ~]# cat xu.txt
1 This is html
2 How are you
3 You are beautiful
7 happy mid-Autumn Festival
输出文本中每行的第一列和第四列的字符
[root@localhost ~]# awk '{print $1,$4}' xu.txt
1 html
2 you
3 beautiful
7 Festival
或者
awk -F #-F相当于内置变量FS, 指定分割字符
使用多个分隔符.先使用空格分割,然后对分割结果再使用","分割
awk -F '[ ,]' '{print $1,$2,$4}' xu.txt
结果
[root@localhost ~]# awk -F '[ ,]' '{print $1,$2,$4}' xu.txt
1 This html
2 How you
3 You beautiful
7 happy Festival
awk -v # 设置变量
栗子
源文件
[root@localhost ~]# cat xu.txt
1 This is html
2 How are you
3 You are beautiful
7 happy mid-Autumn Festival
在awk命令中设置变量,然后做一个+运算,最后打印
[root@localhost ~]# awk -v a=1 '{print $1,$1+a}' xu.txt
1 2
2 3
3 4
7 8
匹配机制
awk 的强大之处在于脚本命令,它由 2 部分组成,分别为匹配规则和执行命令,如下所示:
'匹配规则{执行命令}'
来指定脚本命令可以作用到文本内容中的具体行,可以使用字符串(比如 /demo/,表示查看含有 demo 字符串的行)或者正则表达式指定。另外需要注意的是,整个脚本命令是用单引号(’’)括起,而其中的执行命令部分需要用大括号({})括起来。
在 awk 程序执行时,如果没有指定执行命令,则默认会把匹配的行输出;如果不指定匹配规则,则默认匹配文本中所有的行。
举个栗子
awk '/^$/ {print "runing"}' com.txt
在此命令中,/^$/ 是一个正则表达式,功能是匹配文本中的空白行,同时可以看到,执行命令使用的是 print 命令,此命令经常会使用,它的作用很简单,就是将指定的文本进行输出。因此,整个命令的功能是,如果 test.txt 有 N 个空白行,那么执行此命令会输出 N 个 runing。
源文件
[root@localhost ~]# cat com.txt
This is the computer line.
This is the name data line.
This is the classroom data line.
This is the become line.
结果
[root@localhost ~]# awk '/^$/ {print "runing"}' com.txt
runing
runing
runing
[root@localhost ~]#
awk常用的内置变量
参数 | 注释 |
---|---|
$0 | 表示整个当前行 |
$1 ~ $n | 当前记录的第N个字段 |
FS | 输入字段分隔符(默认是空格) |
RS | 输入记录分割符,默认换行符(即文本是按一行一行输入) |
NF | 字段个数就是列 |
NR | 记录数,就是行号,默认从1开始 |
FNR | 与NR类似,不过多文件记录不递增,每个文件都从1开始 |
OFS | 输出字段分隔符,默认空格 |
ORS | 输出记录分割符,默认换行符 |
\n | 换行符 |
~ | 匹配正则表达式 |
!~ | 不匹配正则表达式 |
= += -= *= /= %= ^= **= | 赋值 |
&& | 逻辑与 |
< <= > >= != == | 关系运算符 |
* / % | 乘,除与求余 |
$ | 字段引用 |
逻辑运算
源文件
[root@localhost ~]# cat xu.txt
1 This is html
2 How are you
3 You are beautiful
7 happy mid-Autumn Festival
过滤第一列大于2的行
[root@localhost ~]# awk '$1>2' xu.txt
3 You are beautiful
7 happy mid-Autumn Festival
[root@localhost ~]#
过滤第一列等于2的行,并输出第一列和第三列
[root@localhost ~]# awk '$1==2 {print $1,$3}' xu.txt
2 are
[root@localhost ~]#
过滤第一列大于1并且第三列等于’are’的行
[root@localhost ~]# awk '$1>1 && $3=="are" {print $1,$2,$3}' xu.txt
2 How are
3 You are
[root@localhost ~]#
模式取反
源文件
[root@localhost ~]# cat xu.txt
1 This is html
2 How are you
3 You are beautiful
7 happy mid-Autumn Festival
取第三行,不包含is 行的第二列和第四列输出
[root@localhost ~]# awk '$3 !~ /is/ {print $2,$4}' xu.txt
How you
You beautiful
happy Festival
[root@localhost ~]#
BEGIN关键字
awk 中还可以指定脚本命令的运行时机。默认情况下,awk 会从输入中读取一行文本,然后针对该行的数据执行程序脚本,但有时可能需要在处理数据前运行一些脚本命令,这就需要使用 BEGIN 关键字。
BEGIN 会强制 awk 在读取数据前执行该关键字后指定的脚本命令,例如:
源文件
[root@localhost ~]# cat bub.txt
hello
how
are
you
执行以下命令后
awk 'BEGIN {print "hi xiaohua"} {print $0}' bub.txt
结果
[root@localhost ~]# awk 'BEGIN {print "hi xiaohua"} {print $0}' bub.txt
hi xiaohua
hello
how
are
you
[root@localhost ~]#
可以看到,这里的脚本命令中分为 2 部分,BEGIN 部分的脚本指令会在 awk 命令处理数据前运行,而真正用来处理数据的是第二段脚本命令。
END关键字
和 BEGIN 关键字相对应,END 关键字允许我们指定一些脚本命令,awk 会在读完数据后执行它们,例如:
源文件
[root@localhost ~]# cat bub.txt
hello
how
are
you
执行以下命令后
awk 'BEGIN {print "hi xiaohua"}{print $0} END {print"bye"}' bub.txt
结果
[root@localhost ~]# awk 'BEGIN {print "hi xiaohua"}{print $0} END {print"bye"}' bub.txt
hi xiaohua
hello
how
are
you
bye
可以看到,当 awk 程序打印完文件内容后,才会执行 END 中的脚本命令。
NF
变量定义为当前输入记录的字段个数(即有几列)
源文件
[root@localhost ~]# cat xm.txt
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83
查询每行数据有多少列
[root@localhost ~]# awk '{print NF}' xm.txt
6
7
8
给NF加上$,就是查询各行的最后一列
[root@localhost ~]# awk '{print $NF}' xm.txt
88
92
83
NR
NR是每行的记录号,也就是行号,多文件记录递增
源文件
[root@localhost ~]# cat xm.txt
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83
输出每一行的第一列,并输出行号
[root@localhost ~]# awk '{print NR $1}' xm.txt
1john
2andrea
3jasper
输出每一行的第一列,并输出行号且用 “.”(点)分割
[root@localhost ~]# awk '{print NR "." $1}' xm.txt
1.john
2.andrea
3.jasper
输出每一行的内容和行号,且用用 “.”(点)分割
[root@localhost ~]# awk '{print NR "." $0}' xm.txt
1.john 85 92 78 94 88
2.andrea 89 90 75 90 86 92
3.jasper 84 88 80 92 84 94 83
RS
输入的记录分隔符
[root@localhost ~]# cat xm.txt
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83
以换行符作为字段分隔符,将记录分割符设置为空,来出输出第一列的内容
[root@localhost ~]# awk 'BEGIN{FS="\n";RS=""}{print $1}' xm.txt
john 85 92 78 94 88
这样设置后,程序就会把它认为是一个整体。
OFS
输出字段分隔符
OFS是和FS等效的输出分隔符,他的默认值为空格
源文件
[root@localhost ~]# cat com.txt
This is the computer line.
This is the name data line.
This is the classroom data line.
This is the become line.
以换行符作为字段分隔符,将记录分割符设置为空,将输出分隔符改为冒号来出输出第一列的内容。
[root@localhost ~]# awk 'BEGIN{FS="\n";RS="";ORS=":"}{print $1}' com.txt
This is the computer line.:This is the name data line.:This is the classroom data line.:This is the become line.: