一、sed
sed是一种流编辑器,流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流
sed编辑器可以根据命令来处理数据流中的数据,这些命令要么从命令行中输出,要么存储在一个命令文本文件中
sed的工作流程主要包括
读取:sed从输入流中读取一 行内容并存储到临时的缓冲区中
执行:默认情况下,所有的sed命令都在模式空间中顺序的执行,除非指定了行的地址,否则sed命令将会在所有的行上一次执行
显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过程将被重复执行,直至所有内容被处理完
在所有的文件内容都被处理完成之前,上述过程将被重复执行,直至所有内容被处理完
注意:默认情况下所有sed命令都是在默认空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出
常用选项
-e:表示用指定命令来处理输入的文本文件,只有一个操作命令时可省略,一般在执行多个操作命令使用
-f:表示用指定的脚本文件来处理输入的文本文件
-h:显示帮助
-n:禁止sed编辑器输出,但可以与p命令一起使用完成输出
-i:直接修改目标文本文件
常用操作
s:替换,替换指定字符
d:删除,删除选定的行
a:增加,在当前行下面增加一行指定内容
i:插入,在选定行上面插入一行指定内容
c:替换,将选定行替换为指定内容
y:字符转换,转换前后字符长度必须相同
p:打印,如果同时指定行,表示打印指定行,如果不指定行,则表示打印所有内容:如果有非打印字符则以ASCII码输出。其通常与“-n”选项一起使用
=:打印行号
l:打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)
替换
行范围 s/旧字符穿/新字符串/替换标记
4种替换标记
数字:表明新字符串将替换第几处匹配的地方
g:表明新字符串将替换所有匹配的地方
p:打印与替换命令匹配的行,与-n一起使用
w文件:将替换的结果写到文件中
插入
二、awk
1、工作原理
逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令
sed命令常用于一整行,而awk比较倾向于将一行分成多个“字段”然后在进行处理。awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示或、“!”表示非;还可以进行简单的数学运算,如+\、*、/、%、^分别表示加、减、乘、除、取余和乘方
2、命令格式
awk选项
awk 选项 ‘模式或条件 {操作}’ 文件1 文件2 …
awk -f 脚本文件 文件1 文件2 …
3、常见变量
FS:列分隔符。指定每行文本的字段分隔符,默认为空格或制表位。与“-F”相同
NF:当前处理的行的字段个数
NR:当前处理的行的行号
$0:当前处理的行的整行内容
$n:当前处理行的第n个字段
FLLENAME:背出来的文件名
RS:行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,以进行处理。预设值为‘/n’
4、按字段输出文本
5、通过管道、双引号调用shell命令
当getline左右五重定向符“<”或“|”时,awk首先读取到第一行,就是1,然后getline,就得到了1下面的第二行,就是2,因为getline之后,awk会改变对应的NF,NR,FNR和$0等内部变量,所以此时$0的值就不再是1,而是2了,然后将它打印出来。当getline左右有重定向符“<”或“|”时,getline则作用于定向输入文件,由于该文件是刚打开,并没有被awk读入一行,只是getline读入,那么getline返回的是该文件的第一行,而不是隔行