正则表达式，sed，awk一篇即可

最新推荐文章于 2024-08-11 03:05:51 发布

xiwagogogo

最新推荐文章于 2024-08-11 03:05:51 发布

阅读量247

点赞数 1

文章标签： linux shell

本文链接：https://blog.csdn.net/xiwagogogo/article/details/115174063

版权

正则表达式，sed，awk

sort命令---以行为单位对文件内容进行排序，也可以根据不同的数据类型来排序
- 语法格式：
- 常用选项：
uniq命令---用于报告或者忽略文件中连续的重复行，常与 sort 命令结合使用
- 语法格式：
- 常用选项：
tr命令---常用来对来自标准输入的字符进行替换、压缩和删除
- 语法格式：
- 常用选项：
正则表达式---通常用于判断语句中，用来检查某一字符串是否满足某一格式
- 基础正则表达式常见元字符：（支持的工具：grep、egrep、sed、awk）
- 扩展正则表达式元字符：（支持的工具：egrep、awk）
sed 的工作流程主要包括读取、执行和显示三个过程：
- 命令格式：
- 替换：
awk
- awk常见的内建变量

sort命令—以行为单位对文件内容进行排序，也可以根据不同的数据类型来排序

语法格式：

sort [选项] 参数
cat file | sort 选项

常用选项：

-f：忽略大小写
-b：忽略每行前面的空格
-M：按照三字符月份进行排序
-n：按照数字进行排序
-r：反向排序
-u：等同于uniq，表示相同的数据仅显示一行
-t：指定字段分隔符，默认使用[Tab]键分隔
-k：指定排序字段
-o <输出文件>：将排序后的结果转存至指定文件

sort -n testfile2

sort -t ‘:’ -k 3 -n /etc/passwd

du -ah | sort -nr -o du.txt

uniq命令—用于报告或者忽略文件中连续的重复行，常与 sort 命令结合使用

语法格式：

uniq [选项] 参数
cat file | uniq 选项

常用选项：

-c：进行计数，并删除文件中重复出现的行
-d：仅显示重复行
-u：仅显示出现一次的行

uniq testfile3

tr命令—常用来对来自标准输入的字符进行替换、压缩和删除

语法格式：

tr [选项] [参数]

常用选项：

-c：保留字符集1的字符，其他的字符用（包括换行符\n）字符集2替换
-d：删除所有属于字符集1的字符
-s：将重复出现的字符串压缩为一个字符串；用字符集2 替换字符集1
-t：字符集2 替换字符集1，不加选项同结果。

参数：
字符集1：指定要转换或删除的原字符集。当执行转换操作时，必须使用参数“字符集2”指定转换的目标字符集。但执行删除操作时，不需要参数“字符集2”；
字符集2：指定要转换成的目标字符集。

echo “abc” | tr ‘a-z’ ‘A-Z’

echo abccabacca | tr -c “ab\n” “0”

echo ‘hello world’ | tr -d ‘od’

echo “thissss is a text linnnnnnne.” | tr -s ‘sn’

删除空行
echo -e “aa\n\n\n\n\nbb” | tr -s “\n”

把路径变量中的冒号":"，替换成换行符"\n"
echo $PATH | tr -s “:” “\n”

删除Windows文件“造成”的’^M’字符：
cat file | tr -s “\r” “\n” > new_file
或
cat file | tr -d “\r” > new_file
Linux中遇到换行符("\n")会进行回车+换行的操作，回车符反而只会作为控制字符("^M")显示，不发生回车的操作。而windows中要回车符+换行符("\r\n")才会回车+换行，缺少一个控制符或者顺序不对都不能正确的另起一行。

数组排序
echo ${array[*]} | tr ’ ’ ‘\n’ | sort -n

正则表达式—通常用于判断语句中，用来检查某一字符串是否满足某一格式

正则表达式是由普通字符与元字符组成
普通字符包括大小写字母、数字、标点符号及一些其他符号
元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式

基础正则表达式常见元字符：（支持的工具：grep、egrep、sed、awk）

\ ：转义字符，用于取消特殊符号的含义，例：!、\n、$等
^ ：匹配字符串开始的位置，例：^a、the、^#、[a-z]
$ ：匹配字符串结束的位置，例：word $KaTeX parse error: Expected group after '^' at position 2: 、^̲$ 匹配空行
. ：匹配除\n之外的任意的一个字符，例：go.d、g…d

：匹配前面子表达式0次或者多次，例：goo*d、go.*d
[list] ：匹配list列表中的一个字符，例：go[ola]d，[abc]、[a-z]、[a-z0-9]、[0-9]匹配任意一位数字
[^list] ：匹配任意非list列表中的一个字符，例：[^0-9]、[A-Z0-9]、[^a-z]匹配任意一位非小写字母
{n} ：匹配前面的子表达式n次，例：go{2}d、’[0-9]{2}‘匹配两位数字
{n,} ：匹配前面的子表达式不少于n次，例：go{2,}d、’[0-9]{2,}‘匹配两位及两位以上数字
{n,m} ：匹配前面的子表达式n到m次，例：go{2,3}d、’[0-9]{2,3}'匹配两位到三位数字
注：egrep、awk使用{n}、{n,}、{n,m}匹配时“{}”前不用加“\”

扩展正则表达式元字符：（支持的工具：egrep、awk）

：匹配前面子表达式1次以上，例：go+d，将匹配至少一个o，如god、good、goood等
? ：匹配前面子表达式0次或者1次，例：go?d，将匹配gd或god
() ：将括号中的字符串作为一个整体，例1：g(oo)+d，将匹配oo整体1次以上，如good、gooood等
| ：以或的方式匹配字条串，例：g(oo|la)d，将匹配good或者glad
sed编辑器
sed是一种流编辑器，流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。
sed编辑器可以根据命令来处理数据流中的数据，这些命令要么从命令行中输入，要么存储在一个命令文本文件中。

sed 的工作流程主要包括读取、执行和显示三个过程：

•读取：sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓冲区中（又称模式空间，pattern space）。
•执行：默认情况下，所有的sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则sed 命令将会在所有的行上依次执行。
•显示：发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。
注意：默认情况下所有的sed命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出。

命令格式：

sed -e ‘操作’ 文件1 文件2 …
sed -n -e ‘操作’ 文件1 文件2 …
sed -f 脚本文件文件1 文件2 …
sed -i -e ‘操作’ 文件1 文件2 …

-e 或–expression=：表示用指定命令来处理输入的文本文件，只有一个操作命令时可省略，一般在执行多个操作命令使用
-f 或–file=：表示用指定的脚本文件来处理输入的文本文件。
-h 或–help：显示帮助。
-n、–quiet 或 silent：禁止sed编辑器输出，但可以与p命令一起使用完成输出。
-i：直接修改目标文本文件。

常用操作：
s：替换，替换指定字符。
d：删除，删除选定的行。
a：增加，在当前行下面增加一行指定内容。
i：插入，在选定行上面插入一行指定内容。
c：替换，将选定行替换为指定内容。
y：字符转换，转换前后的字符长度必须相同。
p：打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以 ASCII 码输出。其通常与“-n”选项一起使用。
=：打印行号。
l(小写L)：打印数据流中的文本和不可打印的ASCII字符（比如结束符$、制表符\t）

替换：

行范围 s/旧字符串/新字符串/替换标记

4种替换标记：
数字：表明新字符串将替换第几处匹配的地方
g：表明新字符串将会替换所有匹配的地方
p：打印与替换命令匹配的行，与-n一起使用
w 文件：将替换的结果写到文件中

awk

逐行读取文本，默认以空格或tab键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。
sed命令常用于一整行的处理，而awk比较倾向于将一行分成多个“字段”然后再进行处理。awk信息的读入也是逐行读取的，执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”；还可以进行简单的数学运算，如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

命令格式：
awk 选项 ‘模式或条件 {操作}’ 文件 1 文件 2 …
awk -f 脚本文件文件 1 文件 2 …

awk常见的内建变量

FS：列分割符。指定每行文本的字段分隔符，默认为空格或制表位。与"-F"作用相同
NF：当前处理的行的字段个数。
NR：当前处理的行的行号（序数）。
$0：当前处理的行的整行内容。
$n：当前处理行的第n个字段（第n列）。
FILENAME：被处理的文件名。
RS：行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是’\n’