目录
一、正则表达式
正则表达式,描述一个字符集合的表达方式
模糊匹配
1.1 扩展正则符号
grep需要加上-E参数扩展正则才可用
1.2 Perl兼容的正则符号
例如\b匹配单词,因此sbin不会被显现
1.3 grep语法格式
用法:grep [选项] 匹配模式 [文件] ...
常用选项:
-i 忽略大小写
-v 取反匹配
-w 匹配单词
-q 静默匹配,不将结果显示在屏幕上
匹配示ou但前面不为th的内容
以点结尾的内容,需要反斜杠取义
所有的大小写字母都被过滤出来
二、sed基础
sed(Stream Editor):流式编辑器,非交互式,逐行处理,可以对文本进行增删改查等操作
语法:
sed [选项] '[定位符]指令' 文件名
命令 | sed [选项] '[定位符]指令'
-n参数会将单引号的内容显现出来,3为定位符指第三行,p是指令在这里是打印的意思,希望sed打印第三行的内容,若不加-n选项,会把内容都显示出来同时第三行打印两次。1,2代表第一二行
sed是逐行处理,流程将从第一行处理,如'3p',当处理到第三行,匹配定位符和指令才进行打印,但还会继续第四行去匹配,直到文件结束
xm@ubuntu:~/shell$ sed -n '3p' /etc/passwd
bin:x:2:2:bin:/bin:/usr/sbin/nologin
xm@ubuntu:~/shell$ sed -n '1,2p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
2.1 常用命令选项
-n:屏蔽默认输出
-i:直接修改源文件
-r:支持扩展正则
2.1.1 行号定位sed可以使用行号来定位自己需要修改的数据内容
"sed -n '1~2p' /etc/passwd",从1行开始,步长为2,因此打印1,3,5...直到结束
"sed -n '2,+3p' /etc/passwd",从2行开始,同时打印接下来的3行
2.1.2 正则定位
sed可以使用正则匹配需要的数据,然后再编辑对应的内容,在sed使用正则需要两个斜线括起来,同时扩展正则需要加入-r选项
注意以上内容不会修改源文件,若需要修改源文件加入-i选项
2.3 使用sed修改配置
常用的sed指令
p(print):打印行;
d(delete):删除行;
c(replace):替换行;
s(substitution):替换关键词;
=:打印行号
以下指令,根分区/前面加入\进行了转义
xm@ubuntu:~/shell$ df -h | sed -n '/\/$/p'
/dev/sda1 40G 20G 18G 53% /
xm@ubuntu:~/shell$ sed -n '1p;3p;6p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:2:2:bin:/bin:/usr/sbin/nologin
games:x:5:60:games:/usr/games:/usr/sbin/nologin
xm@ubuntu:~/shell$ sed -n '2!p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync
games:x:5:60:games:/usr/games:/usr/sbin/nologin
man:x:6:12:man:/var/cache/man:/usr/sbin/nologin
lp:x:7:7:lp:/var/spool/lpd:/usr/sbin/nologin
mail:x:8:8:mail:/var/mail:/usr/sbin/nologin
news:x:9:9:news:/var/spool/news:/usr/sbin/nologin
uucp:x:10:10:uucp:/var/spool/uucp:/usr/sbin/nologin
proxy:x:13:13:proxy:/bin:/usr/sbin/nologin
www-data:x:33:33:www-data:/var/www:/usr/sbin/nologin
backup:x:34:34:backup:/var/backups:/usr/sbin/nologin
2.3.1 Delete指令
2.3.2 Replace指令
替换将会是整一行
2.3.3 Substitution
替换关键词指令
"sed 's/2046/XXXX/' test.txt "只替换一次
"sed 's/2046/XXXX/g' test.txt "全替换一次
"sed 's/2046/(&)/2' test.txt"其中&代表被替换词
xm@ubuntu:~/shell$ cat test.txt
2046 2048 2046 2046
1001 2046 2999 1888
2046 2046 2046 2046
xm@ubuntu:~/shell$ sed 's/2046/XXXX/' test.txt
XXXX 2048 2046 2046
1001 XXXX 2999 1888
XXXX 2046 2046 2046
xm@ubuntu:~/shell$ sed 's/2046/XXXX/g' test.txt
XXXX 2048 XXXX XXXX
1001 XXXX 2999 1888
XXXX XXXX XXXX XXXX
xm@ubuntu:~/shell$ sed 's/2046/XXXX/2' test.txt
2046 2048 XXXX 2046
1001 2046 2999 1888
2046 XXXX 2046 2046
xm@ubuntu:~/shell$ sed 's/2046/(&)/2' test.txt
2046 2048 (2046) 2046
1001 2046 2999 1888
2046 (2046) 2046 2046
xm@ubuntu:~/shell$ sed '2s/2046/XXXX/g' test.txt
2046 2048 2046 2046
1001 XXXX 2999 1888
2046 2046 2046 2046
xm@ubuntu:~/shell$ sed '2s/2046//g' test.txt
2046 2048 2046 2046
1001 2999 1888
2046 2046 2046 2046
xm@ubuntu:~/shell$ sed -n '2s/2046/XXXX/p' test.txt
1001 XXXX 2999 1888
替换符/可以用其他字符,因为替换词可能会出现/,例如"/bin/bash"
2.3.4 正则符号()
具有保留功能
2.3.5 =打印行号
2.4 多行文本处理
常用指令
i(inset):插入
a(append):追加
r(read):读取文件|导入文件内容
w(write):文件另存为|导出文件内容
2.4.1 Inset指令
行前插入
xm@ubuntu:~/shell$ sed '2i ABC_XYZ' test.txt
2046 2048 2046 2046
ABC_XYZ
1001 2046 2999 1888
2046 2046 2046 2046
xm@ubuntu:~/shell$ sed '/2046/i ABC_XYZ' test.txt
ABC_XYZ
2046 2048 2046 2046
ABC_XYZ
1001 2046 2999 1888
ABC_XYZ
2046 2046 2046 2046
2.4.2 Append指令
追加,行后写入
xm@ubuntu:~/shell$ sed '2a ABC_XYZ' test.txt
2046 2048 2046 2046
1001 2046 2999 1888
ABC_XYZ
2046 2046 2046 2046
xm@ubuntu:~/shell$ sed '/2046/a ABC_XYZ' test.txt
2046 2048 2046 2046
ABC_XYZ
1001 2046 2999 1888
ABC_XYZ
2046 2046 2046 2046
ABC_XYZ
2.4.3 Read指令
将其他文件的内容导入
"sed '2r /etc/hosts' test.txt "从第二行开始导入
"sed 'r /etc/hosts' test.txt "每一行都导入
"sed '/1888/r /etc/hosts' test.txt"在1888行开始导入
xm@ubuntu:~/shell$ sed '2r /etc/hosts' test.txt
2046 2048 2046 2046
1001 2046 2999 1888
127.0.0.1 localhost
127.0.1.1 ubuntu# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
2046 2046 2046 2046
xm@ubuntu:~/shell$ sed 'r /etc/hosts' test.txt
2046 2048 2046 2046
127.0.0.1 localhost
127.0.1.1 ubuntu# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
1001 2046 2999 1888
127.0.0.1 localhost
127.0.1.1 ubuntu# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
2046 2046 2046 2046
127.0.0.1 localhost
127.0.1.1 ubuntu# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
xm@ubuntu:~/shell$ sed '/1888/r /etc/hosts' test.txt
2046 2048 2046 2046
1001 2046 2999 1888
127.0.0.1 localhost
127.0.1.1 ubuntu# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
2046 2046 2046 2046
2.4.4 Write指令
将文件内容导出另存到其他文件
xm@ubuntu:~/shell$ sed '2,3w line.txt' test.txt
2046 2048 2046 2046
1001 2046 2999 1888
2046 2046 2046 2046
xm@ubuntu:~/shell$ cat line.txt
1001 2046 2999 1888
2046 2046 2046 2046
三、DEMO
随机点名脚本
抓取网页图片