Linux 三剑客之awk实战

基本介绍

awk是Linux开发下常用的一种对文本进行处理的工具,具有十分强大的功能。数据可以来源于标准输入、文件及外部变量,支持用户自定义函数和动态正则表达式等高级功能,且拥有许多内置的功能和函数,是开发中的一件利器。

通常,awk是以文件的一行为处理单位的,每接收文件的一行,然后执行相应的命令处理文本。

语法格式

awk [选项参数] 'script' var=value file(s)
或
awk [选项参数] -f scriptfile var=value file(s)
  • -F fs:指定输入文件拆分隔符,fs是一个字符串或者一个正则表达式;
  • -v var=value:赋值一个用户定义变量,将外部变量传递给awk;
  • -f scripfile:从脚本文件中读取awk命令。

快速入门

a.txt文本内容

1,20,I
2,30,hello
3,21,am
4,32,world
5,43,yu
6,21,akw
7,22,zhan

b.txt文本内容

1,I,24
3,am,25
5,yu,26
7,zhan,27

1. 内置变量应用

要求:找出文件a和b以第一列为索引相同的行,并且每行输出索引、a中的第3列和b中的第2列。

awk -F ',' 'NR==FNR {db[$1]=$3} NR!=FNR {r=0.0; if($1 in db) {r=db[$1];printf("%s\t%s\t%s\n",$1,r,$3)}}' a.txt b.txt
1	I	24
3	am	25
5	yu	26
7	zhan	27

NR: 读取到所有文件的行数索引号;

FNR:读取到每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始。

2. BEGIN模块和END模块应用

要求:统计文件a的行数

awk -F ',' 'BEGIN {count=0;print "[start] init count is:",count} {count++;print $0} END{print "[END] final count is:",count}' a.txt
[start] init count is: 0
1,20,I
2,30,hello
3,21,am
4,32,world
5,43,yu
6,21,akw
7,22,zhan
[END] final count is: 7

BEGIN 模块:在开始处理输入文件之前执行,通常用于初始化变量中;
END 模块   : 在结束处理输入文件之后执行,通常用于执行最终计算中。

3. 正则应用

要求:匹配文件a中所有包含o的行

awk '/REG/{action} ' file,/REG/为正则表达式,可以将$0 中,满足条件的记录送入到:action 进行处理。

awk '/.*o.*/{print $0}' a.txt
2,30,hello
4,32,world

4. 循环结构应用

要求:输出文件a的每行第2列,且前面加上一个变量。

awk -F ',' 'BEGIN{count=0;sum=100;while(count <= sum){count++} print "count:",count} {if (NR >= 2 && NR <= 4) {printf("%s\t%s\n",count,$2)}}' a.txt
count: 101
101	30
101	21
101	32

5. 字符串函数应用

要求:查找文件a中第2列包含20的行,找到输出ok,否则输出not found

awk -F ',' 'BEGIN{str="21"} {print $1,index(str,$2)?"ok":"not found"}' a.txt
1 not found
2 not found
3 ok
4 not found
5 not found
6 ok
7 not found

内建变量

$n当前记录的第n个字段,字段间由FS分隔
$0完整的输入记录
ARGC命令行参数的数目
ARGIND命令行中当前文件的位置(从0开始算)
ARGV包含命令行参数的数组
CONVFMT数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组
ERRNO最后一个系统错误的描述
FIELDWIDTHS字段宽度列表(用空格键分隔)
FILENAME当前文件名
FNR各文件分别计数的行号
FS字段分隔符(默认是任何空格)
IGNORECASE如果为真,则进行忽略大小写的匹配
NF一条记录的字段的数目
NR已经读出的记录数,就是行号,从1开始
OFMT数字的输出格式(默认值是%.6g)
OFS输出记录分隔符(输出换行符),输出时用指定的符号代替换行符
ORS输出记录分隔符(默认值是一个换行符)
RLENGTH由match函数所匹配的字符串的长度
RS记录分隔符(默认是一个换行符)
RSTART由match函数所匹配的字符串的第一个位置
SUBSEP数组下标分隔符(默认值是/034)

运算符

= += -= *= /= %= ^= **=赋值
?:C条件表达式
||逻辑或
&&逻辑与
~ ~!匹配正则表达式和不匹配正则表达式
< <= > >= != ==关系运算符
空格连接
+ -加,减
* / %乘,除与求余
+ - !一元加,减和逻辑非
^ ***求幂
++ --增加或减少,作为前缀或后缀
$字段引用
in数组成员

内置函数   

    

   

awk正则

      

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值