shell的join操作

Shell使用awk命令完成两个文件的关联join

先看看awk中的两个自身变量,NR和FNR。 awk可以指定同时读取多个文件,按照指定的先后顺序,逐个读取。

NR指的是awk所读取到所有记录(包括多个文件)的行数索引号,大概是Number Of Record的意思。

FNR只的是awk所读取到的每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始,大概是File Number Of Record的意思。

# a.txt文件内容
1	10
2	20
3	30
4	50
# b.txt文件内容
1 点击
2 搜索
4 购买
一、 将两个文件进行join,实现a.txt left outer join b.txt的操作
# 命令
awk -F'\t' 'NR==FNR{a[$1]=$2;}NR!=FNR{print $0,a[$1]}' OFS='\t' b.txt a.txt
# 结果
1	10	点击
2	20	搜索
3	30	
4	50	购买

解释:

  1. NR==FNR{a[$1]=$2;}

a是一个数组;当NR==FNR,也就是读取第一个文件的内容(第一个文件就是后面的b.txt),以b.txt中的$1作为数组索引号,以b.txt中的$2作为数组的值;

因此,第一部分过后,有了一个数组a,具体的值为 a[1]=”点击″, a[2]=”搜索″, a[4]=”购买″

  1. NR!=FNR{print $0,a[$1]}

当NR!=FNR时候,也就是读取第二个文件的内容(a.txt),print $0(打印a.txt中的内容),以及a[$1],这里的含义是以a.txt中的$1为索引号,去数组a中获取值,因为之前数组a中的索引号有1,2,4。

二、 将两个文件进行内连接join,实现a.txt inner join b.txt的操作
# 命令
awk -F'\t' 'NR==FNR{a[$1]=$2;}NR!=FNR && a[$1] {print $0,a[$1]}' b.txt a.txt
# 结果
1	10	点击
2	20	搜索
4	50	购买

条件变成了NR!=FNR && a[$1]
读取第二个文件的内容,并且第二个文件的$1在数组中存在,也可以写成 $1 in a。

参考 https://www.pianshen.com/article/44771943671/

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值