linux文本处理三剑客

罗三森

已于 2022-08-04 11:56:53 修改

阅读量842

点赞数 1

分类专栏：学习笔记文章标签： linux bash 运维

于 2022-08-03 21:59:12 首次发布

本文链接：https://blog.csdn.net/weixin_44423210/article/details/126138525

版权

awk sed grep 文本处理 Linux

关键词由CSDN通过智能技术生成

学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

linux中文本处理三剑客有awk（主要用于截取）、sed（主要用于替换）、grep（主要用于过滤）

inux文本处理三剑客

awk
grep
sed

awk

awk是什么？

是一种编程及数据操作语言既然是编程语言，就有：变量、流控 if for、数组、函数

awk有什么用？用于哪里？

awk用于文本处理，可以用来对文本进行过滤、截取甚至可以做统计

awk命令的简要处理流程

awk会逐行读取文件数据进行处理，以-F后面指定的分隔符将数据划分为若干段，每段数据存入对应的变量中。$0存储的是整行数据

awk的内置变量

FS The input field separator, a space by default. See Fields, above. 输入分隔符变量
OFS The output field separator, a space by default. 输出分隔符变量
NF The number of fields in the current input record. #计算字段
NR The total number of input records seen so far. 行号
例：awk -F":" ‘OFS=“#”{print NR,$1,$3,$5,$7}’ /etc/passwd
指定输出分割符为#并输出第1、3、5、7列，给每一行添加行号，其中$NF可以表示最后一个字段，$(NF-1)表示倒数第二个字段

awk语法

分为三部分：BEGIN{ }pattern{ }END{ },BEGIN为处理数据之前执行的命令，pattern为每行都会执行的命令，END为处理数据后执行的命令，头和末尾匹配一次，中间每行匹配一次。
例：awk -F: ‘BEGIN{num=0;print “###start###”} $1~/^luo{2,}/ && $3>2000 || $NF ~ /bash/ {print NR,NF,$1,$3,length($1),$(NF-1);num++} END{print "lins:"num}’ /etc/passwd
开始指定分隔符为：，定义变量num=0，并且最开始执行输出###start###，pattern部分指定以（luo并且后面接2到无数个字符）开头并且第三列的值要大于2000的行，或者最后一个字段是bash的行；
awk中指定多个输入分隔符：[/:];
在匹配时~为模糊匹配，==是精确匹配；
边界符号：\ \

awk和shell传参问题

awk当中，直接使用shell里的变量，需要使用双引号，里面的位置变量需要转义
例：
shell中定义变量 sg=lzy
awk中引用sg变量：awk -F： “/$sg/{print $1}” /etc/passwd

awk流控

if

单分支：if statement（语句）: awk -F: ‘{if ($1 ~ /luoziyao/) print “yaoge”}’ /etc/passwd；
双分支：if statement1 else statement2：awk -F: ‘{if ($1 ~ /luoziyao/) print “yaoge”;else print “dage”}’ /etc/passwd；
多分支：awk -F: ‘{if ($1 ~ /luoziyao/) print “yaoge”;else if ($3>5000) print “dageda”;else print “dage”}’ /etc/passwd；

for

类似于python字典里的key和value
awk的for循环格式
for (i=0;i<10;i++) {print $i;}
for (i in array) {print array[i]} --》直接从数组的下标里读一个值，以此类推，取完所有的值，遍历

例：awk -F: ‘{split($6,home_dir,“/”);for (i=2;i<4;i++)print i,home_dir[i]}’ /etc/passwd

函数

length：awk -F: ‘length($1) >6 {print $1}’ /etc/passwd 统计长度
split：将一段字符串分割符号，对文本进行分割，存放到数组里，使用for循环遍历读取数组里的内容
substr： awk -F: ‘{if (length($1)>6) print substr($1,1,6)}’ /etc/passwd
substr($1,1,6) 类似于切片操作对$1 第一个开始切6个
system：将linux命令放在awk里面
awk ‘{system("useradd "$1)}’ name.txt

数组

！！awk里的数组下标从1开始

awk里如何使用数组存放数据？

将所有的/etc/passwd 所有的用户存放在user数组里，例如 awk -F: ‘{user[$1]=$3}’,就是将$3里的值赋

给user[$1]数组 awk里如何取出数组里存放数据？
for 循环
while 循环

grep

grep命令主要用于对文本的过滤，grep家族有：grep，egrep（grep -e）、fgrep（用的少）
grep常见用法：
grep –i 查找时忽略大小写；

-v：反转查找；
-n：显示符合模式要求的行号；
-r：递归搜索所有文件；
-o：只显示匹配的内容；
-E：支持更多的元字符（支持扩展正则）；
-A：找到匹配行以及后几行； After
-B：输出匹配行以及前几行； Before
接*代表对当前目录下的文件都查找接一个-r就表示对当前目录下的文件以及子文件进行查找（递归查找）

sed

sed有什么用？

sed - stream editor for filtering and transforming text stream
流，数据流，文本流就是一个文本过滤和转换（替换）的流编辑器（工具）；
核心功能：sed -i ‘s/luoziyao/luodayou/’ rengxj.txt （核心功能，替换）把luoziyao换成
luodayou