awk 高级用法

最新推荐文章于 2022-08-09 20:34:21 发布

NBED

最新推荐文章于 2022-08-09 20:34:21 发布

阅读量1.1k

点赞数

文章标签：正则表达式 perl linux

本文链接：https://blog.csdn.net/xumneg111/article/details/120400497

版权

awk

文章目录

- 一、简介
- - 二、基本语法

一、简介

AWK 是一种处理文本文件的语言，是一个强大的文本分析工具。

之所以叫 AWK 是因为其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。

二、基本语法

//awk [选项] ‘脚本命令’ 文件名

awk [选项参数] 'script' var=value file(s)

或者

awk [选项参数] -f scriptfile var=value file(s)

常用的选项参数

参数	注释
-F fs	指定输入文件拆分隔符，fs是一个字符串或者是一个正侧表达式，如-F
-v	赋值一个用户定义变量
-f	从脚本中读取awk命令
-W	在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样，所有的awk扩展都被忽略。
’ ’	引用代码块
//	匹配代码块，可以是字符串或正则表达式
{}	命令代码块，包含一条或多条命令
;	多条命令使用分号分隔
BEGIN	在 awk 程序一开始，未读取任何数据之前执行。BEGIN 后的动作只在程序开始时执行一次
END	在 awk 程序处理完所有数据，即将结束时执行?END 后的动作只在程序结束时执行一次

举个栗子

源文件

[root@localhost ~]# cat xu.txt 
1 This is html
2 How are you
3 You are beautiful
7 happy mid-Autumn Festival

输出文本中每行的第一列和第四列的字符

[root@localhost ~]# awk '{print $1,$4}' xu.txt 
1 html
2 you
3 beautiful
7 Festival

或者
awk -F #-F相当于内置变量FS, 指定分割字符

使用多个分隔符.先使用空格分割，然后对分割结果再使用","分割
  awk -F '[ ,]'  '{print $1,$2,$4}'   xu.txt

结果

[root@localhost ~]# awk -F '[ ,]'  '{print $1,$2,$4}' xu.txt 
1 This html
2 How you
3 You beautiful
7 happy Festival

awk -v # 设置变量

栗子

源文件

[root@localhost ~]# cat xu.txt 
1 This is html
2 How are you
3 You are beautiful
7 happy mid-Autumn Festival

在awk命令中设置变量，然后做一个+运算，最后打印

[root@localhost ~]# awk -v a=1 '{print $1,$1+a}' xu.txt 
1 2
2 3
3 4
7 8

匹配机制

awk 的强大之处在于脚本命令，它由 2 部分组成，分别为匹配规则和执行命令，如下所示：

'匹配规则{执行命令}'

来指定脚本命令可以作用到文本内容中的具体行，可以使用字符串（比如 /demo/，表示查看含有 demo 字符串的行）或者正则表达式指定。另外需要注意的是，整个脚本命令是用单引号（’’）括起，而其中的执行命令部分需要用大括号（{}）括起来。

在 awk 程序执行时，如果没有指定执行命令，则默认会把匹配的行输出；如果不指定匹配规则，则默认匹配文本中所有的行。

举个栗子

awk '/^$/ {print "runing"}' com.txt

在此命令中，/^$/ 是一个正则表达式，功能是匹配文本中的空白行，同时可以看到，执行命令使用的是 print 命令，此命令经常会使用，它的作用很简单，就是将指定的文本进行输出。因此，整个命令的功能是，如果 test.txt 有 N 个空白行，那么执行此命令会输出 N 个 runing。

源文件
[root@localhost ~]# cat com.txt 
This is the computer line.

This is the name data line.

This is the classroom data line.

This is the become line.

结果

[root@localhost ~]#  awk '/^$/ {print "runing"}' com.txt 
runing
runing
runing
[root@localhost ~]#

awk常用的内置变量

参数	注释
$0	表示整个当前行
$1 ~ $n	当前记录的第N个字段
FS	输入字段分隔符（默认是空格)
RS	输入记录分割符，默认换行符(即文本是按一行一行输入)
NF	字段个数就是列
NR	记录数，就是行号，默认从1开始
FNR	与NR类似，不过多文件记录不递增，每个文件都从1开始
OFS	输出字段分隔符，默认空格
ORS	输出记录分割符，默认换行符
\n	换行符
~	匹配正则表达式
!~	不匹配正则表达式
= += -= = /= %= ^= *=	赋值
&&	逻辑与
< <= > >= != ==	关系运算符
* / %	乘，除与求余
$	字段引用

逻辑运算
源文件

[root@localhost ~]# cat xu.txt 
1 This is html
2 How are you
3 You are beautiful
7 happy mid-Autumn Festival

过滤第一列大于2的行

[root@localhost ~]# awk '$1>2' xu.txt 
3 You are beautiful
7 happy mid-Autumn Festival 
[root@localhost ~]#

过滤第一列等于2的行,并输出第一列和第三列

[root@localhost ~]# awk '$1==2 {print $1,$3}' xu.txt 
2 are
[root@localhost ~]#

过滤第一列大于1并且第三列等于’are’的行

[root@localhost ~]# awk '$1>1 && $3=="are" {print $1,$2,$3}' xu.txt 
2 How are
3 You are
[root@localhost ~]#

模式取反
源文件

[root@localhost ~]# cat xu.txt 
1 This is html
2 How are you
3 You are beautiful
7 happy mid-Autumn Festival

取第三行，不包含is 行的第二列和第四列输出

[root@localhost ~]# awk '$3 !~ /is/ {print $2,$4}' xu.txt 
How you
You beautiful
happy Festival
[root@localhost ~]#

BEGIN关键字
awk 中还可以指定脚本命令的运行时机。默认情况下，awk 会从输入中读取一行文本，然后针对该行的数据执行程序脚本，但有时可能需要在处理数据前运行一些脚本命令，这就需要使用 BEGIN 关键字。

BEGIN 会强制 awk 在读取数据前执行该关键字后指定的脚本命令，例如：

源文件

[root@localhost ~]# cat bub.txt 
hello
how
are
you

执行以下命令后

awk 'BEGIN {print "hi xiaohua"} {print $0}' bub.txt

结果

[root@localhost ~]# awk 'BEGIN {print "hi xiaohua"} {print $0}' bub.txt 
hi xiaohua
hello
how
are
you

[root@localhost ~]#

可以看到，这里的脚本命令中分为 2 部分，BEGIN 部分的脚本指令会在 awk 命令处理数据前运行，而真正用来处理数据的是第二段脚本命令。
END关键字
和 BEGIN 关键字相对应，END 关键字允许我们指定一些脚本命令，awk 会在读完数据后执行它们，例如：

源文件

[root@localhost ~]# cat bub.txt 
hello
how
are
you

执行以下命令后

awk 'BEGIN {print "hi xiaohua"}{print $0} END {print"bye"}' bub.txt

结果

[root@localhost ~]# awk 'BEGIN {print "hi xiaohua"}{print $0} END {print"bye"}' bub.txt 
hi xiaohua
hello
how
are
you

bye

可以看到，当 awk 程序打印完文件内容后，才会执行 END 中的脚本命令。

NF
变量定义为当前输入记录的字段个数(即有几列)
源文件

[root@localhost ~]# cat xm.txt
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83

查询每行数据有多少列

[root@localhost ~]# awk '{print NF}' xm.txt
6
7
8

给NF加上$,就是查询各行的最后一列

[root@localhost ~]# awk '{print $NF}' xm.txt 
88
92
83

NR
NR是每行的记录号，也就是行号，多文件记录递增
源文件

[root@localhost ~]# cat xm.txt
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83

输出每一行的第一列，并输出行号

[root@localhost ~]# awk '{print NR $1}' xm.txt
1john
2andrea
3jasper

输出每一行的第一列，并输出行号且用 “.”（点）分割

[root@localhost ~]# awk '{print NR "." $1}' xm.txt
1.john
2.andrea
3.jasper

输出每一行的内容和行号，且用用 “.”（点）分割

[root@localhost ~]# awk '{print NR "." $0}' xm.txt 
1.john 85 92 78 94 88
2.andrea 89 90 75 90 86 92
3.jasper 84 88 80 92 84 94 83

RS
输入的记录分隔符

[root@localhost ~]# cat xm.txt 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83

以换行符作为字段分隔符，将记录分割符设置为空，来出输出第一列的内容

[root@localhost ~]# awk 'BEGIN{FS="\n";RS=""}{print $1}' xm.txt 
john 85 92 78 94 88

这样设置后，程序就会把它认为是一个整体。

OFS
输出字段分隔符
OFS是和FS等效的输出分隔符，他的默认值为空格
源文件

[root@localhost ~]# cat com.txt 
This is the computer line.

This is the name data line.

This is the classroom data line.

This is the become line.

以换行符作为字段分隔符，将记录分割符设置为空，将输出分隔符改为冒号来出输出第一列的内容。

[root@localhost ~]# awk 'BEGIN{FS="\n";RS="";ORS=":"}{print $1}' com.txt 
This is the computer line.:This is the name data line.:This is the classroom data line.:This is the become line.:

NBED

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
awk 高级用法

awk文章目录一、简介二、基本语法常用的选项参数匹配机制awk常用的内置变量一、简介AWK 是一种处理文本文件的语言，是一个强大的文本分析工具。之所以叫 AWK 是因为其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。二、基本语法//awk [选项] ‘脚本命令’ 文件名awk [选项参数] 'script' var=value file(s)或者awk [选项参数] -f scriptf
复制链接

扫一扫