[文本三搜索工具grep]

2022冲鸭

已于 2022-06-07 13:23:21 修改

阅读量283

点赞数

CC 4.0 BY-SA版权

文章标签： linux

于 2022-04-01 23:01:56 首次发布

本文链接：https://blog.csdn.net/y805805/article/details/123910260

本文详细介绍了Linux系统中常用的文本处理工具grep、sed和awk的使用，包括它们的主要功能、常用命令选项以及正则表达式的应用。grep用于文本搜索，支持多种模式匹配；sed是流编辑器，适用于文本编辑任务；awk则是文本报告生成器，擅长数据处理。同时，文章讲解了正则表达式的概念、元字符分类、匹配次数、位置锚定和分组等核心概念，通过实例展示了如何在实际操作中运用这些工具和正则表达式解决问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

nmap -v -A 192.168.48.100 扫描某台机器的访问端口

grep: 文本过滤工具

sed : stream editor ,文本编辑工具

awk :linux上实现gawk,文本报告生成器

====================================================

grep

作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检

查；打印匹配到的行

模式：由正则表达式字符及文本字符所编写的过滤条件

命令选项：

--color=auto: 对匹配到的文本着色显示 #grep其实是别名，默认就是着色状态

-e 实现多个选项间的逻辑or关系 #或的关系

-w 匹配整个单词

-m # 匹配#次后停

-v 显示不被pattern匹配到的行

-i 忽略字符大小写

-n 显示匹配的行号

-c 统计匹配的行数

-o 仅显示匹配到的字符串

-q 静默模式，不输出任何信息

-A # after, 后#行

-B # before, 前#行

-C # context, 前后各#行

-E 使用ERE

-F 相当于fgrep，不支持正则表达式

-f file 根据模式文件处理

grep root /etc/passwd |grep bash #& 关系,比如包含root并且包含bash

正则表达式

正则表达式，并非是linux特有的功能，windows 也有：findstr /?；还有各类软件、python各类语言都有正则表达式

REGEXP： Regular Expressions，由一类特殊字符及文本字符所编写的模式，

其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能

程序支持：grep,sed,awk,vim, less,nginx,varnish等

分两类：

基本正则表达式：BRE

扩展正则表达式：ERE

实现正则表达式，采用的算法是PCRE（软件模块）

元字符分类：字符匹配、匹配次数、位置锚定、分组

查看帮助：man 7 regex

基本正则表达式元字符

***字符匹配***

=========================================================

. 匹配单个字符

例子：

#grep "r..t" /etc/passwd

root:x:0:0:root:/root:/bin/bash

operator:x:11:0:operator:/root:/sbin/nologin

ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin

[] 匹配指定范围内的任意单个字符，示例：[wang] [0-9] [a-z] [a-zA-Z]

例子：

#cat f4.txt

ddff

efef

#grep [de] f4.txt

ddff

efef

[^] 匹配指定范围外的任意单个字符，相当于非的关系

例子：

#grep [^de] f4.txt

ddff

efef

#grep ^[de] f4.txt

ddff

efef

对比上面两个两个写法 ^ 放外面表示行首，放里面表示反向

[:alnum:] 字母和数字

grep [[:alnum:]] f4.txt

[:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z

[:lower:] 小写字母 [:upper:] 大写字母

[:blank:] 空白字符（空格和制表符）

[:space:] 水平和垂直的空白字符（比[:blank:]包含的范围广）

[:cntrl:] 不可打印的控制字符（退格、删除、警铃...）

[:digit:] 十进制数字 [:xdigit:]十六进制数字

[:graph:] 可打印的非空白字符

[:print:] 可打印字符

[:punct:] 标点符号

=========================================================

****匹配次数******

匹配次数：用在要指定次数的字符后面，用于指定前面的字符要出现的次数

* 匹配前面的字符任意次，包括0次

贪婪模式：尽可能长的匹配

.* 任意多个字符

\? 匹配其前面的字符0或1次

\+ 匹配其前面的字符至少1次

\{n\} 匹配前面的字符n次

\{m,n\} 匹配前面的字符至少m次，至多n次

\{,n\} 匹配前面的字符至多n次

\{n,\} 匹配前面的字符至少n次

\. 转义了，只表示小数点；例如\.txt ,表示以 .txt 结尾的文件了

=========================================================

******位置锚定******

^ 行首锚定，用于模式的最左侧

$ 行尾锚定，用于模式的最右侧

^PATTERN$ 用于模式匹配整行

^$ 空行

^[[:space:]]*$ 空白行

\< 或 \b 词首锚定，用于单词模式的左侧 # \b 表示匹配单词的边界，可以是词首，也可以是词尾

\> 或 \b 词尾锚定，用于单词模式的右侧

\<PATTERN\> 匹配整个单词

^$ 表示空行

例子：

匹配单词的词首 \< 单词的词尾 \>

#echo hello |grep "\<hello\>"

hello

例子：

#ifconfig ens33|grep -o '[0-9.]\{7,15\}' |head -1

192.168.48.106

===============================================================

分组： 将一个或多个字符捆绑在一起，当作一个整体处理，如：$root$\+

分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些

变量的命名方式为: \1, \2, \3, ...

\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

如下举得例子：

$abc$$123$

\1 \2 #\1 指的是abc \2指的是123

后向引用：引用前面的分组括号中的模式所匹配字符，而非模式本身

示例：

a\|b a或b

C\|cat C或cat

$C\|c$at Cat或cat

#echo rootrootroot |grep "$root$\{3\}"

rootrootroot

例子：

找出/etc/passwd中的两位或三位数

#grep -o "\<[0-9]\{2,3\}\>" /etc/passwd

查看系统版本号

#grep -o '\<[0-9]\+\>' /etc/centos-release|head -n1

找出/etc/passwd用户名和shell同名的行

#grep "^$[^:]\+$:.*\<\1$" /etc/passwd

sync:x:5:0:sync:/sbin:/bin/sync

shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

halt:x:7:0:halt:/sbin:/sbin/halt

利用df和grep，取出磁盘各分区利用率，并从大到小排序

#df |grep "^/dev/sd"|tr -s " " % |cut -d% -f5 |sort -nr

#df |grep "/dev/sd"|grep -o '[[:digit:]]\+%'|tr -d %|sort -nr

================================================

扩展正则表达式===>功能一样，为了减轻扩展正则表达式的写法繁琐，更简洁了

使用扩展正则表达式，需要加 grep -E ,也可以用egrep

扩展正则表达式的元字符：

字符匹配：

. 任意单个字符

[] 指定范围的字符

[^] 不在指定范围的字符

次数匹配：

* 匹配前面字符任意次

? 0或1次

+ 1次或多次

{m} 匹配m次

{m,n} 至少m，至多n次

位置锚定：

^ 行首

$ 行尾

\<, \b 语首

\>, \b 语尾

分组：

()

后向引用：\1, \2, ...

或者：

a|b a或b

C|cat C或cat

(C|c)at Cat或cat

有些写法有变化，部分和正则表达式写法一致