大数据---------linux基础 ---------02linux基本命令----------文本分析（15 16 17 18 19）

最新推荐文章于 2023-11-12 22:05:32 发布

bigzqq

最新推荐文章于 2023-11-12 22:05:32 发布

阅读量202

点赞数

分类专栏： linux

本文链接：https://blog.csdn.net/wi8ruk48/article/details/88410955

版权

linux 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

问题集锦

04中的实例4的例1 这个正则表达式中的第二层括号的作用是啥？难道是因为出现了这个？符号，这个符号有选择的作用？

04中的实例4的例2 关于这个正则表达式中3层括号的说明：第一层是为了反引用，第二层是为了啥？第三层是为了或运算符，并且将.隔离在第三层运算符外，从而让.不对或运算产生影响。

正文

01 cut

作用：显示切割的行数据

使用方法：cut 选项参数

选项：-d：自定义分隔符

-f ：选择显示的列

-s 不显示没有分割符的行

实例：cut -d" " -f1-3 a.txt 按照空格分割为列，显示1-3列

02 sort

作用：显示排序过的数据 ,排序应该分为排字典序和拍数值序

使用方法：sort 选项参数

选项：-n 按数值排序

-r 倒序排列

-k 选择排序的列

-t 自定义分割符

-u

-f

实例：按照字典序排序 sort a.txt

按照第二列的数值序排列 sort -t" " -k2 -n a.txt

03 wc

作用：统计文本的字符个数，行数，字节数等

使用方法 wc 选项参数

选项：-l 统计行数

实例：结合cat，管道和wc 使用。统计a.txt的行数 cat a.txt | wc -l

04 sed

作用：行编辑器

使用方法：sed 选项 "addresscommand"

选项：-i 在原文件上直接修改

-n 静默模式见实例1

command：-d 符合条件的行

-i\string 在指定行的前面插入

-a\string 在指定行的后面插入

-s/pattern/string/修饰符默认只替换每一行中第一个匹配的pattern。

修饰符 -g 全行替换

-i 忽略大小写

address：可以没有

给定范围

查找指定行 /str/ 这里是查找功能所以应该继续用/

实例：1显示a.txt中的第二行命令为 sed -n "2p" a.txt 这里-n参数的作用是只显示第二行。

2 在第二行的后面插入sxt 命令为sed "2a\sxt" a.txt 命令前面是没有- 这个符号的,参数才有。

3 将含有sxt的行删除 sed "/sxt/d" a.txt

4 匹配ip地址，

实例4的例1 把IPADDR=192.168.149.111改为IPADDR=192.168.149.88。

sed "s/(IPADDR=([0-9]?[0-9][0-9]?.){3}).*/\188/" a.txt //没有添加转义字符\的正则表达式
sed "s/\(IPADDR=\([0-9]\?[0-9][0-9]\?\.\)\{3\}\).*/\188/" a.txt //添加了转义字符\的正则表达式,需要注意的是这里的.*并没有使用转义符号，可能因为.*合起来并不需要转义吧。

问题集锦：这个正则表达式中的第二层括号的作用是啥？难道是因为出现了这个？符号，这个符号有选择的作用？

实例4的例2 实际上实例4的例1只考虑了ip地址的格式，没有考虑ip地址的范围，比如334.192.168.111也会当做ip地址去匹配的，但是显然334.192.168.111不是ip地址。怎么来将ip地址的范围用考虑进去呢。ip地址的每一个小节的范围都是从0-255，所以我们可以把ip地址划分为一位数的，二位数的，三位数的，然后再进一步细分，可以划分为5种。以下给出具体分类。

0-9

10-99

100-199

200-249

250-255

根据这个分类我们可以写出以下正则表达式：

sed "(IPADDR=(([0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5]).){3})" ifcfg-eth0

sed "s/\(IPADDR=\(\([0-9]\|[1-9][0-9]\|1[0-9][0-9]\|2[0-4][0-9]\|25[0-5]\)\.\)\{3\}\).*/\188/" ifcfg-eth0

关于上面这个正则表达式中3层括号的说明：第一层是为了反引用，第二层是为了啥？第三层是为了或运算符，并且将.隔离在第三层运算符外，从而让.不对或运算产生影响。

05 awk

作用：对数据分析并生成报告

使用格式 awk 选项 'pattern+action' filename 这里一定注意使用的是单引号，不是双引号。

支持正则表达式

支持自定义变量，数组，a[1],a[tom],由于tom可以是字符串，所以这里的数组可以起到map的作用，如同map{key}一样，字符串相当于这里的key

支持内置变量 NR 即行号

NF 即分割后每行的列的个数

pattern+action :包括使用的匿名函数，

实例1 只显示etc、passwd中的utc用户

awk -F':' '{print $1}' passwd 这里$1指的是第一行。

相关内容 passwd中的每一列的含义

root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync

这里第一列是用户名，第二列x代表密码，第三列0代表属主id ，第四列0代表的是属组id ，第五列用户描述，一般是用户名，第六列是用户家目录，第八列是用户登入时启动的shell。

实例2 只显示账户和账户对应的shell，账户和shell之间用制表符隔开。在所有行之前添加列名，shell。在最后一行添加 "blue（制表符）/bin/nosh" (cut sed)

awk -F':' 'BEGIN{print"name\tshell"}{print $1"\t"$7}END{print"blue\t/bin/nosh"}' passwd

实例3 显示passwd中含有root关键字的所有行

awk '/root/{print $0'} passwd 注意这里 /root/{print $0}的写法 root就是要查找的内容，而{print $0}的结果就是要替换的内容。

实例4 显示passwd文件中，行号，列数，对应的完整行内容。

awk -F':' '{print NR "\t" NF "\t" $0}' passwd 注意这里要给\t 加上双引号

实例5

统计报表：合计每人1月工资，0：manager，1：worker
Tom	 0   2012-12-11      car     3000
John	 1   2013-01-13      bike    1000
vivi	 1   2013-01-18      car     2800
Tom	 0   2013-01-20      car     2500
John	 1   2013-01-28      bike    3500

预计统计后的结果：

思路是这样的，先按照空格或者制表符分割，显然-F参数后面不需要加自定义的分隔符号。即awk -F awk.txt 。

然后既然统计1月份的工资，那么首先应该把日期部分提取出来，即把第三列提取出来，然后利用现成的函数split对第三列按照字符 - 进行分割，并且将分割的数据存放在data数组中去。然后在加合1月份数据的时候我们可以利用自定义数组的map特性，定义一个name数组用这样的公式来统计即name[$1] += $5 。

这个时候的代码是这样的

awk -F '{
    split($3,data,"-");
    if(data[2] == "01"){
    name[$1] += $5
    }
}'
END{
    for(i in name){
        print i "\t" name[i]
    }
}

根据题目要求我们需要输出每个人的工作，所以需要在匿名函数中加入一段逻辑判断。

最终的代码如下：

{
	split($3,data,"-");
	if(data[2] == "01"){
		name[$1] += $5
	};
	if($2 == "0"){
		role[$1] = "manager"
	}else{
		role[$1] = "worker"
	}
}
END{
	for(i in name){
		print i "\t" role[i] "\t" name[i]
	}
}

最后注意运行代码时需要加上-f 参数英文代码需要被保存为a.sh 运行命令如下：awk -f a.sh awk.txt

bigzqq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据---------linux基础 ---------02linux基本命令----------文本分析（15 16 17 18 19）

问题集锦04中的实例4的例1 这个正则表达式中的第二层括号的作用是啥？难道是因为出现了这个？符号，这个符号有选择的作用？04中的实例4的例2关于这个正则表达式中3层括号的说明：第一层是为了反引用，第二层是为了啥？第三层是为了或运算符，并且将.隔离在第三层运算符外，从而让.不对或运算产生影响。目录正文01 cut 作用：显示切割的行数据使用方法...
复制链接

扫一扫

专栏目录