Linux-文本处理三剑客：grep、sed-和-awk

码农小伙

已于 2024-09-06 10:33:05 修改

阅读量1.2k

点赞数 27

分类专栏： Linux 文章标签： linux 运维

于 2024-09-06 10:25:00 首次发布

本文链接：https://blog.csdn.net/weixin_45653328/article/details/141952955

版权

Linux 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

awk、grep、sed是linux操作文本的三大利器，合称文本三剑客，也是必须掌握的linux命令之一。三者的功能都是处理文本，但侧重点各不相同，其中属awk功能最强大，但也最复杂。grep更适合单纯的查找或匹配文本，sed更适合编辑匹配到的文本，awk更适合格式化文本，对文本进行较复杂格式处理。

grep

Linux 系统中 grep 命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是 Global Regular Expression Print，表示全局正则表达式版本，它的使用权限是所有用户。

grep可用于shell脚本，因为grep通过返回一个状态值来说明搜索的状态，如果模板搜索成功，则返回0，如果搜索不成功，则返回1，如果搜索的文件不存在，则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。

命令的基本格式：

grep [option] pattern file

grep 常用的参数如下：

-A<行数 x>：除了显示符合范本样式的那一列之外，并显示该行之后的 x 行内容，A其实是after意思。
-B<行数 x>：除了显示符合样式的那一行之外，并显示该行之前的 x 行内容，B的意思before。
-C<行数 x>：除了显示符合样式的那一行之外，并显示该行之前后的 x 行内容，C是啥意思我不懂，哈哈。
-c：小写的c就是统计匹配的行数，c的意思count的意思。
-e：实现多个选项间的逻辑or 关系。
-E: 扩展的正则表达式。
-f 文件名：从文件获取 PATTERN 匹配。
-F ：相当于fgrep,直接输入固定匹配，就是不会模糊匹配
-i ：–ignore-case 忽略字符大小写的差别。
-n：显示匹配的行号。
-o：仅显示匹配到的字符串。
-q：静默模式，不输出任何信息。
-s：不显示错误信息。
-v：显示不被 pattern 匹配到的行，相当于[^] 反向匹配
-w ：匹配整个单词

前三个 A、B、C 参数很容易理解，举个栗子，假设我们有一个文件，文件名是 test.log，内容是从 1 到 9，每个数字一行：

ps:搜索http-nio-8089-exec-13线程，显示匹配成功后两行。

ps:匹配http-nio-8089-exec-13到线程，匹配成功后，前10行显示。

我们再用C的参数查询看看

ps：如我们所料，匹配成功后，显示前后5行。

然后我们再来看看-c写的情况，就是匹配的行，比如我们相差一个tomcat的有多线程，我们可以用grep -c Thread test.log，如图

grep -e命令是实现多个匹配之间的或关系，我们可以同时查询线程13，或者14
如图

我们继续延时-F，匹配固定的字符串

上面没有http**的字符串

grep -f 文件名的使用方法是把后面这个文件里的内容当做pattern。就是我们把需要匹配的内容在文件里面而已，如下图

grep -i --ignore-case作用是忽略大小写。

grep -n显示匹配的行号，就是多显示了个行号，不用细说。
如图，

我们来说说-o的参数，他只会输入匹配到字符串，不会输出整行的内容，如图

这里-v就很有意思，你们有没有遇到很这样的需求，一个配置文件很多注释，怎么样输出过来掉注释呢。-v会帮到我们如图所示：

grep -w匹配整个单词，只有完全符合pattern的单次才会匹配到

sed

sed 命令的作用是利用脚本来处理文本文件。使用方法：

sed [-hnV][-e<script>][-f<script文件>][文本文件]

参数说明：

-e

动作说明：

a：新增， a 的后面可以接字串，而这些字串会在新的一行出现(目前的下一行)～
c：取代， c 的后面可以接字串，这些字串可以取代 n1,n2 之间的行！
d：删除，因为是删除啊，所以 d 后面通常不接任何咚咚；
i：插入， i 的后面可以接字串，而这些字串会在新的一行出现(目前的上一行)；
p：打印，亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行～
s：取代，通常这个 s 的动作可以搭配正规表示法，例如 1,20s/old/new/g 。

下面我们举例说明
添加a或者i
我们来说说a,a的前面如果接数字，意思是新增到多少行的下面，a的后面是加"\添加的内容"如图

但是注意，这个只是将文字处理了，没有写入到文件里，文件里还是之前的内容。

如果a的前面是字符串，那就是做匹配用的用如图

参数i和a用法差不多，这里不做赘述

删除d
删除的字符是d，用法跟前面也很相似，就不赘述，例子如下：

替换c
替换也是一样，字符是c。举个栗子：

匹配到aaaa之后，替换成了bbbbb

替换还有个字符是 s，但是用法由不太一样了，最常见的用法：sed 's/old/new/g’其中old代表想要匹配的字符，new是想要替换的字符，比如：

g前还可以跟一个数字，数字代表一行中出现第几个，比较一行字不止一个字符串能匹配到
ps: 直接写那个命令是不会更改源文件的，需要加上一个-i的参数，比如：sed -i ‘s/1.0.0.6/1.0.0.7/’ /root/data/code-s3201/publish_codex/deploy/db.properties

awk

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。
语法

awk [选项参数] 'script' var=value file(s)
或
awk [选项参数] -f scriptfile var=value file(s)

参数说明：

-F fs or --field-separator fs 指定输入文件折分隔符，fs是一个字符串或者是一个正则表达式，如-F:。
-v var=value or --asign var=value 赋值一个用户定义变量。
-f scripfile or --file scriptfile 从脚本文件中读取awk命令。

基本用法
最基本的用法是awk 动作文件名。
然后输入awk '{print $1,$4}' test就可以看到：

对比可以很清楚的发现，这行语句的作用是打印每行的第一个和第四个单词。这里如果是$0的话就是把整行都输出出来。

awk -F命令可以指定使用哪个分隔符，默认是空格或者 tab 键：

变量
awk中有不少内置的变量，比如$NF代表的是分割后的字段数量，相当于取最后一个。

可以看出都是每行的最后一项。

其他的内置变量还有，这里就不一一演示了：

FILENAME：当前文件名
FS：字段分隔符，默认是空格和制表符。
RS：行分隔符，用于分割每一行，默认是换行符。
OFS：输出字段的分隔符，用于打印时分隔字段，默认为空格。
ORS：输出记录的分隔符，用于打印时分隔记录，默认为换行符。
OFMT：数字输出的格式，默认为％.6g。

函数
awk还提供了一些内置函数，方便对原始数据的处理。主要如下：

toupper()：字符转为大写。
tolower()：字符转为小写。
length()：返回字符串长度。
substr()：返回子字符串。
sin()：正弦。
cos()：余弦。
sqrt()：平方根。
rand()：随机数。

条件
awk允许指定输出条件，只输出符合条件的行。输出条件要写在动作的前面：

awk '条件 动作' 文件名

➜ `awk -F, '$2!="" {print $2}' test`
apple

最后说一句，在linux界，盛行着两句话，第一个是linux一切皆是文件,第二是有问题找男人，查询命令man xxx。

码农小伙

关注

27
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录