文本处理三剑客之sed和awk
sed
Sed是从文件或管道中读取一行,处理一行,输出一行;再读取一行,再处理一行,再输出一行,直到 最后一行。每当处理一行时,把当前处理的行存储在临时缓冲区中,称为 模式空间( Pattern Space ) ,接着用 sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下 一行,这样不断重复,直到文件末尾。一次处理一行的设计模式使得 sed 性能很高, sed在读取大文件时 不会出现卡顿的现象。如果使用 vi 命令打开几十 M 上百 M的文件,明显会出现有卡顿的现象,这是因为 vi 命令打开文件是一次性将文件加载到内存,然后再打开。 Sed就避免了这种情况,一行一行的处理, 打开速度非常快,执行速度也很快
sed 选项 '命令' file
参数 | 说明 |
---|---|
-e | 多点编辑 |
-f | 从指定文件中读取编辑脚本 |
-n | 不自动打印 |
-r | 支持使用扩展正则表达式 |
-i | 直接修改读取的文件内容 |
-i.bak | -i.bak 备份文件并原处编辑 |
地址定界
没有地址 | 全文进行处理 |
---|---|
单地址 | |
# | 指定的行 |
$ | 最后一行 |
/正则表达式/ | 所能匹配到的每一行 |
地址范围表示 | |
#,# | |
#,+# | |
/正则表达式/,/正则表达式/ | |
#,/正则表达式/ |
编辑命令
选项 | 说明 |
---|---|
a | 新增 |
c | 取代 |
d | 删除 |
i | 插入 |
p | 打印 |
s | 取代 |
a\ | 追加 |
!: | 取反 |
=: | 显示行号 |
w file: | 另存为新文件 |
r file: | 把别的文件读入并追加 |
高级命令
选项 | 说明 |
---|---|
P | 打印模式空间开端至\n内容,并追加到默认输出之前 |
h | 把模式空间中的内容覆盖至保持空间中 |
H | 把模式空间中的内容追加至保持空间中 |
g | 从保持空间取出数据覆盖至模式空间 |
G | 从保持空间取出内容追加至模式空间 |
x | 把模式空间中的行的下一行覆盖至模式空间 |
n | 把模式空间中的行的下一行覆盖至模式空间 |
N | 打印偶数行 |
d | 删除模式空间中的行 |
D | 删除第一个行 |
替换
s/搜索内容/替换内容/:查找替换,支持使用其他分隔符,s@@@,s###
选项 | 说明 |
---|---|
g | 行内全部替换(不加g,只替换行的第一个) |
p | 显示替换成功的行 |
w | 将替换成功的行保存至文件中 |
示例:
sed -i 's/eno1/enp98s0f0/' /etc/netplan/00-installer-config.yaml
#!/bin/bash
#一键部署DNS正向解析
# 判断bind程序是否安装
if rpm -q bind &> /dev/null
then
continue
else
if yum install -y bind &> /dev/null
then
continue
else
echo "BIND installation failed....."
exit
fi
fi
read -p "输入域名(格式:baidu.com): " ym
read -p "输入要解析的IP: " ip
# 修改主配置文件
sed -i 's/127.0.0.1/any/' /etc/named.conf
sed -i 's/localhost;/any;/' /etc/named.conf
# 修改区域配置文件
echo 'zone "'$ym'" IN {
type master;
file "'$ym'.zone";
allow-update { none; };
};' >> /etc/named.rfc1912.zones
# 复制区域数据文件模板并修改
cp -p /var/named/named.localhost /var/named/$ym.zone
sed -i 's/@ rname.invalid/'$ym'. admin.'$ym'/' /var/named/$ym.zone
sed -i 's/127.0.0.1/'$ip'/' /var/named/$ym.zone
sed -i '8 s/@/'$ym'./' /var/named/$ym.zone
echo 'www IN A '$ip'' >> /var/named/$ym.zone
# 判断named服务是否开启
if systemctl restart named &> /dev/null
then
echo "name启动完成...."
else
echo "name启动失败,已退出!"
exit
fi
# 修改临时DNS和IP的映射
echo 'nameserver '$ip'' > /etc/resolv.conf
echo "DNS正向解析配置完成"
awk
awk是一种处理文本文件的语言,是一个强大的文本分析工具,它是专门为文本处理设计的编程语言,也是行处理软件,通常用于扫描、过滤、统计汇总工作数据可以来自标准输入也可以是管道或文件
awk [选项] '命令' 文件名
选项 | 说明 |
---|---|
-F | 指定输入文件折分隔 |
用法:awk -F, | |
用法:awk -F: | |
-v | 赋值一个用户定义变量 |
用法:awk -v | |
-f | 从脚本文件中读取awk命令 |
用法:awk -f {awk脚本} {文件名} |
内建变量
变量 | 描述 |
---|---|
$n | 当前记录的第n个字段,字段间由FS分隔 |
$0 | 完整的输入记录 |
ARGC | 命令行参数的数目 |
ARGIND | 命令行中当前文件的位置(从0开始算) |
ARGV | 包含命令行参数的数组 |
CONVFMT | 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组 |
ERRNO | 最后一个系统错误的描述 |
FIELDWIDTHS | 字段宽度列表(用空格键分隔) |
FILENAME | 当前文件名 |
FNR | 各文件分别计数的行号 |
FS | 字段分隔符(默认是任何空格) |
IGNORECASE | 如果为真,则进行忽略大小写的匹配 |
NF | 一条记录的字段的数目 |
NR | 已经读出的记录数,就是行号,从1开始 |
OFMT | 数字的输出格式(默认值是%.6g) |
OFS | 输出字段分隔符,默认值与输入字段分隔符一致。 |
ORS | 输出记录分隔符(默认值是一个换行符) |
RLENGTH | 由match函数所匹配的字符串的长度 |
RS | 记录分隔符(默认是一个换行符) |
RSTART | 由match函数所匹配的字符串的第一个位置 |
SUBSEP | 数组下标分隔符(默认值是/034) |
示例:
awk -F: NR==10'{print $1}' zz ##打印第10行第一列
BEGIN和END
逐行执行开始之前执行什么任务,结束之后再执行什么任务,用BEGIN、END。BEGIN一般用来做初始化操作,仅在读取数据记录之前执行一次。END一般用来做汇总操作,仅在读取完数据记录之后执行一次
写法示例:
awk 'BEGIN{FS=":"}{print $1}' zz ##打印之前定义字段分隔符为冒号
运算符
运算符 | 描述 |
---|---|
= += -= *= /= %= ^= **= | 赋值 |
?: | C条件表达式 |
|| | 逻辑或 |
&& | 逻辑与 |
~ 和 !~ | 匹配正则表达式和不匹配正则表达式 |
< <= > >= != == | 关系运算符 |
空格 | 连接 |
+ - | 加,减 |
* / % | 乘,除与求余 |
+ - ! | 一元加,减和逻辑非 |
^ *** | 求幂 |
++ – | 增加或减少,作为前缀或后缀 |
$ | 字段引用 |
in | 数组成员 |
示例:
awk 'NR<=5{print}' zz ##打印小于5行包含第五行
#有暴力破解三次以上,则输入/etc/hosts.deny
#!/bin/bash
#设置IP地址变量和次数变量
ip=`cat /var/log/secure | awk '/Failed password/ {print $11}' | sort | uniq`
num=`awk '/Failed password/ {print $11}' /var/log/secure | awk '{ips[i]++} END{print $i, ips[i]}' | awk '{print $2}'`
#ip判断是否有超过3次的次数,有则输出ip到/etc/hosts.deny文件中
if [ $num -ge 3 ]
then
echo "sshd:$ip" >>/etc/hosts.deny
fi
数组
awk可以使用关联数组这种数据结构,索引可以是数字或字符串。awk关联数 组也不需要提前声明其大小,因为它在运行时可以自动的增大或减小
array_name[index]=value #array_name:数组的名称 #index:数组索引 #value:数组中元素所赋予的值
示例:
awk 'BEGIN{word[0]="hello";word[1]="world";for(i in word) print word[i]}'
hello
world
awk 'BEGIN{word[0]="hello";word[1]="world";print word[0],word[1]}'
hello world