Linux文本三剑客之sed命令与awk命令

目录

一、sed编辑器

1、sed的执行过程

2、命令格式

3、常用选项

4、常用操作

1)打印内容  

2)删除    

3)替换  

4)注释行

5)插入  

6)复制粘贴  

二、awk命令

1、命令格式

2、awk常见的内建变量

3、按行输出文本

4、按字段输出文本

5、通过管道、双引号调用 Shell 命令


文本三剑客:grep、sed、awk

一、sed编辑器

sed是一种流编辑器,流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。
sed编辑器可以根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要么存储在一个命令文本文件中。

1、sed的执行过程

  • 读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区(又称模式空间,pattern space)。
  • 执行:默认情况下,所有的sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed 命令 将会在所有的行上依次执行。
  • 显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。

2、命令格式

sed -e '操作' 文件1 文件2 ...
sed -n -e '操作' 文件1 文件2 ...
sed -f 脚本文件 文件1 文件2 ...
sed -i -e '操作' 文件1 文件2 ...

sed -e 'n{
操作1
操作2
...
}' 文件1 文件2 ...      #{}可以省略

3、常用选项

  • -e 或--expression=:表示用指定命令来处理输入的文本文件,只有一个操作命令时可省略,一般在执行多个操作命令使用
  • -f 或--file=:表示用指定的脚本文件来处理输入的文本文件。
  • -h 或--help:显示帮助
  • -n、--quiet 或 silent:禁止sed编辑器输出,但可以与p命令一起使用完成输出。
  • -i:直接修改目标文本文件
  • -r:扩展正则

4、常用操作

指令含义
s替换,替换指定字符。
d删除,删除选定的行。
a增加,在当前行下面增加一行指定内容。
i插入,在选定行上面插入一行指定内容。
c替换,将选定行替换为指定内容。
y字符转换,转换前后的字符长度必须相同。
p打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用。
=打印行号
l(小写L)打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)

1)打印内容  

p(打印行内容)  =(打印行号)   l(打印ASCII字符)

sed -n -e '行号p'                           #根据行号进行打印
sed -n -e '起始行号,终止行号p'              #根据行区间进行打印
sed -n -e '/字符串/p'                       #根据字符串匹配行进行打印
sed -n -r -e '/正则表达式/p'                #根据正则表达式匹配行进行打印,-r用于支持扩展正则元字符
sed -n -e '1~2p'                        #从第一行开始每隔2行查看

2)删除    

sed -e '行号区间d'
sed -e '/字符串/d'
sed -r -e '/正则表达式/d'

3)替换  

s(字符串替换)    c(整行内容替换)     y(对应字符替换)

sed -e '行号区间 s/old/new/g'           sed -n -e '行号区间 s/old/new/gp'    #打印被修改的行        sed -e '行号区间 s/old/new/gw 保存文件'     #保存被修改的行
sed -e '/字符串/ s/old/new/g'
sed -r -e '/正则表达式/ s/old/new/g'
sed -r -e 's/(xxx)(xxx)(xxx)/\3\2\1/'

4)注释行

sed -i 's/.*XXX.*/#&/'
       '行号 s/^/#/'

sed -e '行号c 新行内容'
sed -e '/字符串/c 新行内容'

sed -e 'y/旧字符/新字符/'      #注:新字符和旧字符的长度要一致

5)插入  

a(在指定行下面插入行内容)   i(在指定行上面插入行内容)    r(在指定行下面插入整个文件内容)

sed -e '行号区间a 行内容'
sed -r -e '/字符串或正则/a 行内容'

sed -e '行号区间i 行内容'
sed -r -e '/字符串或正则/i 行内容'

sed -e '行号区间r 文件'

6)复制粘贴  

H(复制指定行到剪切板)    G(将剪切板内容粘贴到指定行下面)

sed -e '1,3H;$G'           #将1-3行内容复制粘贴到最后一行下面
sed -e '1,3{H;d};$G'       #将1-3行内容剪切粘贴到最后一行下面

输出奇偶行

扩展正则

通过sed一键部署DNS服务器:

二、awk命令

工作原理:逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。

  • sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个“字段”然后再进行处理。
  • awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

1、命令格式

awk 选项 '模式或条件 {操作}' 文件 1 文件 2 …
awk -f 脚本文件 文件 1 文件 2 …

2、awk常见的内建变量

内建变量含义
FS列分割符。指定每行文本的字段分隔符,默认为空格或制表位。与"-F"作用相同
NF当前处理的行的字段个数
NR当前处理的行的行号(序数)。
$0当前处理的行的整行内容
$n当前处理行的第n个字段(第n列)
FILENAME被处理的文件名
RS行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是'\n'

3、按行输出文本

awk '{print}' testfile2                 #输出所有内容
awk '{print $0}' testfile2                 #输出所有内容

awk 'NR==1,NR==3{print}' testfile2        #输出第 1~3 行内容
awk '(NR>=1)&&(NR<=3){print}' testfile2    #输出第 1~3 行内容
awk 'NR==1||NR==3{print}' testfile2        #输出第1行、第3行内容
awk '(NR%2)==1{print}' testfile2         #输出所有奇数行的内容
awk '(NR%2)==0{print}' testfile2        #输出所有偶数行的内容
awk '/^root/{print}' /etc/passwd        #输出以 root 开头的行
awk '/nologin$/{print}' /etc/passwd        #输出以 nologin 结尾的行
awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd        #统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd

BEGIN模式表示,在处理指定的文本之前,需要先执行BEGIN模式中指定的动作;awk再处理指定的文本之后再执行END模式中指定的动作,END{}语句块中,往往会放入打印结果等语句

4、按字段输出文本

awk -F '字段分隔符' '条件{print NR; print $0}' 文件        #换行输出行号和行内容  
awk -F '字段分隔符' '条件{print NR} 条件{print $0}' 文件

awk -F '字段分隔符' '条件{print NR,$0}' 文件               #同行输出行号和行内容
awk -F '字段分隔符' 'NR==n {print $0}'        #输出 第n行的 整行内容
awk -F '字段分隔符' 'NR==n {print $1}'        #输出 第n行的 第一个字段的内容
awk -F '字段分隔符' 'NR==n {print $1,$NF}'        #输出 第n行的 第一个字段和最后一个字段的内容
awk -F '字段分隔符' 'NR==n,NR==M {print $1}'        #输出 第n行到第m行的 第一个字段的内容
awk -F '字段分隔符' 'NR>=n&&NR<=M {print $1}'        
awk -F '字段分隔符' 'NR==n||NR==M {print $1}'        #输出 第n行和第m行的 第一个字段的内容
awk -F '字段分隔符' '/字符串/ {print $1}'        #输出 包含指定字符串的行的 第一个字段的内容
awk -F '字段分隔符' '/正则表达式/ {print $1}'        #输出 匹配正则表达式的行的 第一个字段的内容
awk -F '字段分隔符' '$1>=n {print $0}'        #输出 第一个字段的数值大于等于n的 整行内容
                       == != >= > <= <
awk -F '字段分隔符' '$1~"字符串" {print $0}'        #输出 第一个字段包含指定字符串的 整行内容
                       ~(包含) !~(不包含) ==(等于) !=(不等于)

5、通过管道、双引号调用 Shell 命令

free | awk '/Mem:/{print int($3/$2*100)"%"}'            #内存使用率
top -b -n1 | awk -F, '/%Cpu\(s\)/{print $4}' | awk '{print 100-$1"%"}'    #CPU使用率
df | grep -w "/" | awk '{print $5}' | awk -F% '{print $1}'     #磁盘分区容量使用率
echo $PATH | awk 'BEGIN{RS=":"};END{print NR}'        #统计以冒号分隔的文本段落数,END{}语句块中,往往会放入打印结果等语句
awk '(NR%2)==1 {print $0}'     #输出奇数行
awk '{print $0; getline}'
sed -n 'p; n'

awk '(NR%2)==0 {print $0}'     #输出偶数行
awk '{getline; print $0}'
sed -n 'n; p'

getline左右无重定向符“<”或“|”时,awk首先读取到了第一行,就是1,然后getline,就得到了1下面的第二行,就是2,因为getline之后,awk会改变对应的NF,NR,FNR和$0等内部变量,所以此时的$0的值就不再是1,而是2了,然后将它打印出来。
当getline左右有重定向符“<”或“|”时,getline则作用于定向输入文件,由于该文件是刚打开,并没有被awk读入一行,只是getline读入,那么getline返回的是该文件的第一行,而不是隔行。

cat test.txt
aaa
aaa
bbb
ccc
aaa
bbb
aaa
awk '{a[1]++}END{for(i in a){print a[i]}}' test.txt

PS:a[1]初始为0,a[1]++后即为1,而这里awk中的a[1]++最终的值是由test.txt文本内容有多少行决定的,文本逐行读取完毕后再执行END中的命令
 

使用awk 统计 httpd 访问日志中每个客户端IP的出现次数?
答案:

awk '{ip[$1]++}END{for(i in ip){print ip[i],i}' /var/log/httpd/access_log | sort -r

备注:定义数组,数组名称为ip,数字的下标为日志文件的第1列(也就是客户端的IР地址),++的目的在于对客户端进行统计计数,客户端IP出现一次计数器就加1。END中的指令在读取完文件后执行,通过循环将所有统计信息输出,for循环遍历的是数组名ip的下标。
 

  • 23
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值