1、扩展正则表达式元字符
■ 扩展正则表达式是对基础正则表达式的扩充深化
■ 扩展元字符
● +: 匹配前面子表达式1次以上
◆ 例: go+d, 将匹配至少一个o
● ?: 匹配前面子表达式0次或者1次
◆ 例: go?d, 将匹配gd或god
● (): 将括号中的字符串作为一个整体
◆ 例: (xyz)+, 将匹配xyz整体1次以上,如xyzxyz
● |: 以或的方式匹配字条串
◆ 例1: good|food, 将匹配good或者food
◆ 例2: g(oo|la)d, 将匹配good或者glad
2、awk工具介绍
■ 功能强大的编辑工具
■ 无交互的情况下实现复杂的文本操作
■ 命令格式
● awk 选项 ‘模式或条件 {编辑指令}’ 文件1 文件2
● awk -f 脚本文件 文件1 文件2
■ awk工作原理
● 逐行读取文本,默认以空格为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者 条件执行编辑命令
■ awk内置变量
● FS:指定每行文本的字段分隔符,缺省为空格或制表位
● NF:当前处理的行的字段个数
● NR: 当前处理的行的行号 (序数)
● $0:当前处理的行的整行内容
● $n: 当前处理行的第n个字段 (第n列)
2.1、awk用法
■ 按行输出文本
awk '{print}' test. txt //输出所有内容,等同于cat test. txt
awk '{print $0}' test. txt //输出所有内容,等同于cat test. txt
awk ’NR==1, NR==3{print}’ test. txt //输出第1~3行内容
awk ’(NR>=1) && (NR<=3) {print}’ test. txt. //输出第1~3行内容
awk ’NR==1||NR==3{print}’ test. txt //输出第1行、第3行内容
awk ’(NR%2)==1{print}’ test. txt //输出所有奇数行的内容
awk ’(NR%2)==0{print}’ test. txt //输出所有偶数行的内容
awk ' /^ root/ {print}’ /etc/passwd //输出以root开头的行
awk ’/nologin$/ {print}’ /etc/ passwd. //输出以nologin结尾的行
awk ‘BEGIN {x=0} ;/\/bin\/bash$/ {x++} ;END {print x}’ /etc/ passwd //统计以/bin/bash结尾的行数,等同于grep -C "/bin/bash$" /etc/ passwd
awk ’BEGIN {RS=""} ;END{print NR}’ test. txt //统计以空行分隔的文本段落数
■ 按字段输出文本
awk ’{print $3}’ test. txt //输出每行中(以空格或制表位分隔)的第3个字段
awk ’{print $1,$3}’ test. txt //输出每行中的第1、3个字段
awk -F ":" '$2==" {print}' /etc/ shadow //输出密码为空的用户的shadow 记录
awk 'BEGIN {FS=":"}; $2=="" {print}' /etc/ shadow //输出密码为空的用户的shadow 记录
awk -F ":" ' $7~" /bash" {print $1}’/etc/passwd //输出以冒 号分隔且第7个字段中包含/bash的行的第1个字段,注:~表示当前用户的意思
awk '($1~" nfs")&& (NF=-8) {print $1, $2}' /etc/services //输出包含 8个字段且第1个字段中包含nfs的行的第1、2个字段
awk -F ":" '($7!="/bin/bash")&& ($7!="/sbin/nologin") {print}' /etc/passwd //输出第7个字段既不为/bin/bash 也不为/ sbin/nologin 的所有行
■ 通过管道、双引号调用Shell命令
awk -F:' /bash$/ {print | "wc -1"}' /etc/passwd //调用wc -1命令统计使用bash的用户个数,等同于grep -c " bash$" /etc/ passwd
awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}' //调用w命令,并用来统计在线用户数
awk 'BEGIN {"hostname" | getline ; print $0}" //调用hostname, 并输出当前的主机名
3、sort工具介绍
■ 依据不同的数据类型进行排序
● 字符排序
● 数字排序
■ 语法格式
sort [选项] 参数
■ 常用选项
● -f:忽略大小写
● -b:忽略每行前面的空格
● -M:按照月份进行排序
● -n:按照数字进行排序
● -r:反向排序
● -u:等同于uniq,表示相同的数据仅显示一行
● -t:指定分隔符,默认使用[Tab]键分隔
● -o <输出文件>:将排序后的结果转存至指定文件
● -k:指定排序区域
4、uniq工具
■ Uniq 工具在Linux 系统中通常与sort 命令结合使用,用于报告或者忽略文件中的重复行
■ 常用选项
● -c: 进行计数
● -d: 仅显示重复行
● -u: 仅显示出现一次的行
■ 示例1:删除testfile文件中的重复行
[root@localhost ]# cat testfile
Linux 10
Linux 20
Linux 30
Linux 30
Linux 30
CentOS 6.5
CentOS 6.5
CentOS 6.5
CentOS 7.3
CentOS 7.3
CentOS 7.3
[root@localhost] # uniq testfile
Linux 10
Linux 20
Linux 30
CentOS 6.5
CentOS 7. 3
■ 示例2: 删除testfile 文件中的重复行,并在行首显示该行重复出现的次数
[root@localhost~]# uniq -c testfile
1 Linux 10
1 Linux 20
3 Linux 30
3 CentOS 6.5
3 CentOS 7.3
■ 示例3:查找testfile 文件中的重复行
[root@localhost]# uniq -d testfile
Linux 30
CentOS 6.5
CentOS 7.3
5、tr工具
■ tr命令常用来对来自标准输入的字符进行替换、压缩和删除
tr具体的命令语法格式为:
tr [选项] [参数]
■ 常用选项
● -c: 取代所有不属于第一字符集的字符
● -d: 删除所有属于第一字符集的字符
● -s: 把连续重复的字符以单独一个字符表示
● -t: 先删除第一字符集较第二字符集多出的字符,做替换
■ 示例1:将输入字符由大写转换为小写
[root@localhost~]# echo" KGC” | tr ' A-Z' 'a-z'
kgc
■ 示例2:压缩输入中重复的字符
[root@localhost~] # echo "thissss is a text linnnnnnne." | tr -s ' sn '
this is a text line.
■ 示例3:删除字符串中某些字符
[root@localhost~]# echo 'hello world' | tr -d 'od'
hell wrl
■ 示例4:取代所有不属于第一字符集的字符
echo abccabacca | tr -c ab 0
ab00aba00a0
■ 示例5:先删除第一字符集较第二字符集多出的字符,做替换
[root@server2~] # echo abcabc123 | tr -t 'abc' 'd'
dbcdbc 123
[root@server2~]# echo abcabc123 | tr -t 'abc' 'ttt'
tttttt123
[root@server2~] # echo abcabc 123 | tr -t 'ab' 'ttt'
ttcttc123