Linux 三剑客之awk实战

最新推荐文章于 2024-07-25 16:55:59 发布

yz930618

最新推荐文章于 2024-07-25 16:55:59 发布

阅读量414

点赞数 1

分类专栏： Linux 文章标签： awk linux

本文链接：https://blog.csdn.net/yz930618/article/details/89228914

版权

15 篇文章 0 订阅

订阅专栏

awk是Linux开发下常用的一种对文本进行处理的工具，具有十分强大的功能。数据可以来源于标准输入、文件及外部变量，支持用户自定义函数和动态正则表达式等高级功能，且拥有许多内置的功能和函数，是开发中的一件利器。

通常，awk是以文件的一行为处理单位的，每接收文件的一行，然后执行相应的命令处理文本。

awk [选项参数] 'script' var=value file(s)
或
awk [选项参数] -f scriptfile var=value file(s)

a.txt文本内容

1,20,I
2,30,hello
3,21,am
4,32,world
5,43,yu
6,21,akw
7,22,zhan

b.txt文本内容

1,I,24
3,am,25
5,yu,26
7,zhan,27

1. 内置变量应用

要求：找出文件a和b以第一列为索引相同的行，并且每行输出索引、a中的第3列和b中的第2列。

awk -F ',' 'NR==FNR {db[$1]=$3} NR!=FNR {r=0.0; if($1 in db) {r=db[$1];printf("%s\t%s\t%s\n",$1,r,$3)}}' a.txt b.txt

1	I	24
3	am	25
5	yu	26
7	zhan	27

NR：读取到所有文件的行数索引号；

FNR：读取到每个文件中的行数索引号，当文件发生切换时候，FNR重新从1开始。

2. BEGIN模块和END模块应用

要求：统计文件a的行数

awk -F ',' 'BEGIN {count=0;print "[start] init count is:",count} {count++;print $0} END{print "[END] final count is:",count}' a.txt

[start] init count is: 0
1,20,I
2,30,hello
3,21,am
4,32,world
5,43,yu
6,21,akw
7,22,zhan
[END] final count is: 7

BEGIN 模块：在开始处理输入文件之前执行，通常用于初始化变量中；
END 模块：在结束处理输入文件之后执行，通常用于执行最终计算中。

3. 正则应用

要求：匹配文件a中所有包含o的行

awk '/REG/{action} ' file,/REG/为正则表达式，可以将$0 中，满足条件的记录送入到：action 进行处理。

awk '/.*o.*/{print $0}' a.txt

2,30,hello
4,32,world

4. 循环结构应用

要求：输出文件a的每行第2列，且前面加上一个变量。

awk -F ',' 'BEGIN{count=0;sum=100;while(count <= sum){count++} print "count:",count} {if (NR >= 2 && NR <= 4) {printf("%s\t%s\n",count,$2)}}' a.txt

5. 字符串函数应用

要求：查找文件a中第2列包含20的行，找到输出ok，否则输出not found

awk -F ',' 'BEGIN{str="21"} {print $1,index(str,$2)?"ok":"not found"}' a.txt

1 not found
2 not found
3 ok
4 not found
5 not found
6 ok
7 not found

$n	当前记录的第n个字段，字段间由FS分隔
$0	完整的输入记录
ARGC	命令行参数的数目
ARGIND	命令行中当前文件的位置(从0开始算)
ARGV	包含命令行参数的数组
CONVFMT	数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组
ERRNO	最后一个系统错误的描述
FIELDWIDTHS	字段宽度列表(用空格键分隔)
FILENAME	当前文件名
FNR	各文件分别计数的行号
FS	字段分隔符(默认是任何空格)
IGNORECASE	如果为真，则进行忽略大小写的匹配
NF	一条记录的字段的数目
NR	已经读出的记录数，就是行号，从1开始
OFMT	数字的输出格式(默认值是%.6g)
OFS	输出记录分隔符（输出换行符），输出时用指定的符号代替换行符
ORS	输出记录分隔符(默认值是一个换行符)
RLENGTH	由match函数所匹配的字符串的长度
RS	记录分隔符(默认是一个换行符)
RSTART	由match函数所匹配的字符串的第一个位置
SUBSEP	数组下标分隔符(默认值是/034)

关注

专栏目录