正则表达式与常用小工具

最新推荐文章于 2024-07-23 17:16:07 发布

mengchaoc

最新推荐文章于 2024-07-23 17:16:07 发布

阅读量259

点赞数 1

本文链接：https://blog.csdn.net/weixin_50344792/article/details/109647948

版权

正则表达式与常用小工具

扩展正则表达式

使用egrep或者grep -E 一般都是使用egrp

语法：
在这里插入图片描述
!与>字符在正则表达式中不是特殊字符，用的时候不许要特殊的转移

awk工具

awk是一个功能非常强大的文档编辑工具，它不仅能以行为单位还能以列为单位处理文件。

命令格式：
awk [参数] ‘[ 动作]’ [文件名]
常见参数：
-F 指定行的分隔符
常见动作：
print 显示内容
$0 显示当前行所有内容
$n 显示当前行的第 n 列内容，如果存在多个$ n，它们之间使用逗号(,)隔开
常见内置变量

FILENAME 当前输入文件的文件名，该变量是只读的

NR 指定显示行的行号

NF 输出最后一列的内容

OFS 输出格式的列分隔符，缺省是空格

FS 输入文件的列分融符，缺省是连续的空格和Tab

命令演示

模板文件内容

admin-1@ubuntu:~$ cat awk.txt
 
nihao awk awk awk
 
nihao awk awk awk

打印指定列内容

打印第1列的内容

admin-1@ubuntu:~$ awk '{print $1}' awk.txt
 
nihao
 
nihao

指定行打印内容

打印第一行第1和第3列内容

admin-1@ubuntu:~$ awk  'NR==1 {print $1,$3}' awk.txt
 
nihao awk

指定隔离分隔符，查看内容

admin-1@ubuntu:~$ cat linshi.txt
 
root:x:0:0:root:/root:/bin/bash
 
admin-1@ubuntu:~$ awk -F ':' '{print $1,$7}' linshi.txt
 
root /bin/bash

设置显示分隔符，显示内容

admin-1@ubuntu:~$ awk 'BEGIN{OFS=":"} {print NR,$0}' awk.txt
 
1:nihao awk awk awk
 
2:nihao awk awk awk

sed工具

Sed是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为"模式空间"(pattern space)，接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送完屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或者多个文件、化简对文件的反复操作、编写转换程序等。

Sed使用参数

[root@www ~]# sed [-nefr] [动作]
选项与参数：
-n ：使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后，则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。
-e ：直接在命令列模式上进行 sed 的动作编辑；
-f ：直接将 sed 的动作写在一个文件内， -f filename 则可以运行 filename 内的 sed 动作；
-r ：sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)
-i ：直接修改读取的文件内容，而不是输出到终端。
 
动作说明： [n1[,n2]]function
n1, n2 ：不见得会存在，一般代表『选择进行动作的行数』，举例来说，如果我的动作是需要在 10 到 20 行之间进行的，则『 10,20[动作行为] 』
 
function：
a ：新增， a 的后面可以接字串，而这些字串会在新的一行出现(目前的下一行)～
c ：取代， c 的后面可以接字串，这些字串可以取代 n1,n2 之间的行！
d ：删除，因为是删除啊，所以 d 后面通常不接任何咚咚；
i ：插入， i 的后面可以接字串，而这些字串会在新的一行出现(目前的上一行)；
p ：列印，亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行～
s ：取代，可以直接进行取代的工作哩！通常这个 s 的动作可以搭配正规表示法！例如 1,20s/old/new/g 就是啦！

以行尾单位的新增/删除
将/etc/passwd的内容列出并且打印行号，同时，请将2~5进行删除

[root@www ~]# nl /etc/passwd | sed '2,5d'
1 root:x:0:0:root:/root:/bin/bash
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
.....(后面省略).....

注：-d后面不接参数，另外sed后面接的动作，请务必以’'即两个单引号括住哦！

只要删除第2行

nl /etc/passwd | sed '2d'

要删除第3行到最后一行

nl /etc/passwd | sed '3,$d'

在第二行的下一行添加"drink tea"内容

[root@www ~]# nl /etc/passwd | sed '2a drink tea'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
drink tea
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
.....(后面省略).....

注：参数a后面的内容就是要添加的内容。

那如果是要在第二行前

nl /etc/passwd | sed '2i drink tea'

如果是要增加两行以上，在第二行后面加入两行字，例如：“drink tea"和"drink beer”

[root@www ~]# nl /etc/passwd | sed '2a Drink tea or ......\
> drink beer ?'
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
Drink tea or ......
drink beer ?
daemon:x:2:2:daemon:/sbin:/sbin/nologin
.....(后面省略).....

注：每一行之间都必须要以反斜杠""来进行新行的添加。

以行为单位的替换与显示

将第2-5行的内容取代成为"No 2-5 number"

[root@www ~]# nl /etc/passwd | sed '2,5c No 2-5 number'
1 root:x:0:0:root:/root:/bin/bash
No 2-5 number
6 sync:x:5:0:sync:/sbin:/bin/sync
.....(后面省略).....

通过这个方法我们就可以将数据整行取代了。

仅列出passwd文件内的第5-7行

[root@liaozhongmin5 lavimer]# nl passwd | sed -n '5,7p'
     5	lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
     6	sync:x:5:0:sync:/sbin:/bin/sync
     7	shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

注：-n是安静的执行，p通常和-n连用。

查找含有root的行

nl /etc/passwd | sed -n '/root/p'
1  root:x:0:0:root:/root:/bin/bash

注：如果不使用-n的话会打印所有的行，双斜杠表示正则表达式。

数据的搜寻并删除

删除/etc/passwd所有包含root的行，其他行输出

nl /etc/passwd | sed  '/root/d'
2  daemon:x:1:1:daemon:/usr/sbin:/bin/sh
3  bin:x:2:2:bin:/bin:/bin/sh
....下面忽略
#第一行的匹配root已经删除了

数据的搜寻并执行命令

搜索/etc/passwd,找到root对应的行，执行后面花括号中的一组命令，每个命令之间用分号分割，这里把bash替换为blueshell，再输出这行：

nl /etc/passwd | sed -n '/bash/{s/bash/blueshell/;p;q}'    
1  root:x:0:0:root:/root:/bin/blueshell

注：最后的q只是退出功能。

数据的搜寻并替换

除了整行的处理模式之外， sed 还可以用行为单位进行部分数据的搜寻并取代。基本上 sed 的搜寻与替代的与 vi 相当的类似！他有点像这样：

sed 's/要被取代的字串/新的字串/g'

先观察原始信息，利用 /sbin/ifconfig 查询 IP

[root@www ~]# /sbin/ifconfig eth0
eth0 Link encap:Ethernet HWaddr 00:90:CC:A6:34:84
inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
inet6 addr: fe80::290:ccff:fea6:3484/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
.....(以下省略).....

本机IP是192.168.1.100

将IP前面部分予以删除：

[root@www ~]# /sbin/ifconfig eth0 | grep 'inet addr' | sed 's/^.*addr://g'
192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0

接下来则是删除后续的部分，亦即： 192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0

[root@www ~]# /sbin/ifconfig eth0 | grep 'inet addr' | sed 's/^.*addr://g' | sed 's/Bcast.*$//g'
192.168.1.100

多点编辑
一条sed命令，删除/etc/passwd第三行到末尾行的数据，并把bash替换为blueshell

nl /etc/passwd | sed -e '3,$d' -e 's/bash/blueshell/'
1  root:x:0:0:root:/root:/bin/blueshell
2  daemon:x:1:1:daemon:/usr/sbin:/bin/sh

注：-e表示多点编辑，第一个编辑命令删除/etc/passwd第三行到末尾行的数据，第二行命令搜索bash替换为blueshell。

直接修改文件的内容(危险动作)

sed 可以直接修改文件的内容，不必使用管道命令或数据流重导向！不过，由於这个动作会直接修改到原始的文件，所以请你千万不要随便拿系统配置来测试！我们还是使用下载的 regular_express.txt 文件来测试看看吧！

利用 sed 将 regular_express.txt 内每一行结尾若为 . 则换成 !

[root@www ~]# sed -i 's/\.$/\!/g' regular_express.txt

利用 sed 直接在 regular_express.txt 最后一行加入『# This is a test』

[root@www ~]# sed -i '$a # This is a test' regular_express.txt

由于 $ 代表的是最后一行，而 a 的动作是新增，因此该文件最后新增『# This is a test』！

sed 的『 -i 』选项可以直接修改文件内容，这功能非常有帮助！举例来说，如果你有一个 100 万行的文件，你要在第 100 行加某些文字，此时使用 vim 可能会疯掉！因为文件太大了！那怎办？就利用 sed 啊！透过 sed 直接修改/取代的功能，你甚至不需要使用 vim 去修订！

sort 工具

sort 是一个以行为单位对文件内容进行排序的工具，也可以根据不同的数据类型来排序。例如数据和字符的牌局就不一样。sort 命令的语法为“sort [选项] 参数”，其中常用的选项包括以下几种。
（1）-f：忽略大小写；
（2）-b：忽略每行前面的空格；
（3）-M：按照月份进行排序；
（4）-n：按照数字进行排序；
（5）-r：反向排序；
（6）-u：等同于 uniq，表示相同的数据仅显示一行；
（7）-t：指定分隔符，默认使用[Tab]键分隔；
（8）-o <输出文件>：将排序后的结果转存至指定文件；
（9）-k：指定排序区域。
1：将/etc/passwd 文件中的账号进行排序。

[root@localhost ~]# sort /etc/passwd

在这里插入图片描述
2：将/etc/passwd 文件中第三列进行反向排序

[root@localhost ~]# sort -t ':' -rk 3 /etc/passwd

在这里插入图片描述
3、将/etc/passwd 文件中第三列进行排序，并将输出内容保存至user.txt 文件中

[root@localhost ~]# sort -t ':' -k 3 /etc/passwd -o user.txt 
[root@localhost ~]# cat user.txt

在这里插入图片描述

uniq 工具

Uniq 工具在 Linux 系统中通常与 sort 命令结合使用，用于报告或者忽略文件中的重复行。具体的命令语法格式为：uniq [选项] 参数。其中常用选项包括以下几种。
（1）-c：进行计数；
（2）-d：仅显示重复行；
（3）-u：仅显示出现一次的行；
1：删除 testfile 文件中的重复行。

[root@localhost ~]# vim test
Linux 10
Linux 20
Linux 30
Linux 30
Linux 30
CentOS 6.5
CentOS 6.5
CentOS 6.5
CentOS 7.3
CentOS 7.3
CentOS 7.3
CentOS 6.5
CentOS 6.5
[root@localhost ~]# uniq test

在这里插入图片描述
2：删除 testfile 文件中的重复行，并在行首显示该行重复出现的次数

在这里插入代码片[root@localhost ~]# uniq -c  test

在这里插入图片描述
3、查找 testfile 文件中的重复行。

[root@localhost ~]# uniq -d  test

在这里插入图片描述

tr工具

tr工具用于字符的替换删除（注意是字符不是字符串）

语法
commands | tr ‘str1’ ‘str2’
tr ‘str1’ ‘str2’ < tr.txt
tr [选项] ‘str1’ <tr.xt
选项
-d：删除str1中所有输入字符
-s：删除所有连续重复出现的字符序列
常用的匹配字符

a-z
A-Z
0-9

例子
tr.txt内容

hello:world
hello:morning
aaaabbbbbcccccc
abcabcabc

cat tr.txt | tr ‘a-z’ ‘A-Z’ 全部替换成大写
cat tr.txt | tr ‘a-z:’ ‘A-Z/’ 全部替换成大写&&:替换成/

tr ‘:’ ‘/’ <tr.txt :替换成/

tr -d ‘a-z’ <tr.txt 删除所有的小写字母

tr -s ‘a-z’ < tr.txt 压缩字符变成如下

helo:world
helo:morning
abc
abcabcabc

mengchaoc

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
正则表达式与常用小工具

正则表达式与常用小工具扩展正则表达式使用egrep或者grep -E 一般都是使用egrp语法：!与>字符在正则表达式中不是特殊字符，用的时候不许要特殊的转移awk工具awk是一个功能非常强大的文档编辑工具，它不仅能以行为单位还能以列为单位处理文件。命令格式：awk [参数] ‘[ 动作]’ [文件名]常见参数：-F 指定行的分隔符常见动作：print 显示内容$0 显示当前行所有内容n显示当前行的第n列内容，如果存在多个n 显示当前行的第n列内容，如果存在多
复制链接

扫一扫