文本处理命令（sort，uniq，tr，cut）及正则表达式

最新推荐文章于 2022-02-24 22:19:56 发布

苦兰若芷

最新推荐文章于 2022-02-24 22:19:56 发布

阅读量217

点赞数

分类专栏： shell编程文章标签：正则表达式 shell

本文链接：https://blog.csdn.net/weixin_55609833/article/details/116988939

版权

shell编程专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、sort命令

1.sort命令的概述

以行为单位队文件内容进行排序，也可以根据不同的数据类型来排序

2.sort命令的语法格式

sort [选项] 参数
cat file | sort 选项

3.sort命令的常用选项

选项	解释
-f	忽略大小写
-b	忽略每行前面的空格
-n	按照数字进行排序
-r	反向排序
-u	等同于uniq，表示相同的数据仅显示一行（去重复值）
-t	指定分隔符，默认使用tab键分隔
-k	指定排序字段经常一同出现 sort -tk 参数
-o<输出文件>	将排序后的结果转存至指定文件

4.sort命令的示例

-f：忽略大小写
在这里插入图片描述

-n：按照数字进行排序
-r：反向排序

-u：等同于uniq，表示相同的数据仅显示一行（去重复值）

-t：指定分隔符，默认使用tab键分隔
-k：指定排序字段

-o：<输出文件>：将排序后的结果转存至指定文件
在这里插入图片描述

二、uniq命令

2.1uniq命令的概述

用于报告或者忽略文件中连续的重复行，常与sort命令结合使用

2.2uniq命令的语法格式

uniq [选项] 参数
cat file | uniq 选项

2.3uniq命令的常用选项

常用选项	解释
-c	进行计数，并删除文件中重复出现的行
-d	仅显示连续的重复行
-u	仅显示出现- - 次的行

2.4uniq命令的示例

在这里插入图片描述
-c：进行计数，并删除文件中重复出现的行

-d：仅显示连续的重复行

-u：仅显示出现- - 次的行

三、tr命令

3.1tr命令的概述

常用来对来自标准输入的字符进行替换、压缩和删除

3.2tr命令的语法格式

tr [选项] [参数]

3.3tr命令的常用选项

常用选项	解释
-c	保留字符集1的字符，其他的字符(包括换行符\n)用字符集2替换
-d	删除所有属于字符集1的字符
-s	将重复出现的字符串压缩为-一个字符串;用字符集2替换字符集1
-t	字符集2替换字符集1，不加选项同结果

3.4tr命令的参数

字符集1：

指定要转换或删除的原字符集
当执行转换操作时，必须使用参数“字符集2”指定转换的目标字符集
但执行删除操作时，不需要参数“字符集2”

字符集2：

指定要转换成的目标字符集

3.5tr命令的示例

大小写转换
在这里插入图片描述
-c:保留字符集1的字符，其他的字符(包括换行符\n)用字符集2替换

-d: 删除所有属于字符集1的字符

-s:将重复出现的字符串压缩为-一个字符串;用字符集2替换字符集1

删除空行
-t: 字符集2替换字符集1，不加选项同结果
在这里插入图片描述
把“：”变更成换行符，看起来比较方便

Windows端传输到Linux的文件可能存在不兼容的问题，会出现"^M"字符

在这里插入图片描述

3.6数组排列

在这里插入图片描述

四、cut命令

4.1cut命令的概述

显示行中的指定部分，删除文件中指定字段

4.2cut命令的语法格式

cut选项参数
cat file| cut选项

4.3cut命令的常用选项

常用选项	解释

-f :通过指定哪一个字段进行提取。cut命令使用“TAB"作为默认的字段分隔符。
-d:"TAB"是默认的分隔符，使用此选项可以更改为其他的分隔符。
-complement :此选项用于排除所指定的字段。
–output-delimiter :更改输出内容的分隔符。

4.4cut命令的示例

在这里插入图片描述
一个是正向查询，一个是反向查询的

提取字符串里面的字符

五、正则表达式

5.1概述

通常用于判断语句中，用来检查某一字符串是否满足某一格式
正则表达式是由普通字符与元字符组成
普通字符包括大小写字母、数字、标点符号及一些其他符号
元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式

5.2正则表达式的组成

正则表达式是由普通字符与元字符组成
普通字符包括大小写字母、数字、标点符号及一些其他符号
元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式

5.3基础正则表达式常见元字符

支持的工具: grep、egrep、sed、awk

常见元字符	解释
\	转义字符，用于取消特殊符号的含义，例: !、\n、$等
^	匹配字符串开始的位置，例: ^a、the、^#、[a-z]
$	匹配字符串结束的位置，例: wordKaTeX parse error: Expected group after ‘^’ at position 2: 、^̲匹配空行
.	匹配除\n之外的任意的一一个字符，例：go.d、g…d
*	匹配前面子表达式0次或者多次，例: good、 go.d
[list]	匹配list列表中的一个字符，例：go [ola]d, [abc]、[a-z]、[a-z0-9]、[0-9]匹配任意一位数字
[^list]	匹配任意非list列表中的-一个字符，例: [^0-9]、 [^A-20-9]、 [^a-z]，匹配任意一位非小写字母
{n}	例：go{2}d, '[0-9]{2}'匹配两位数字 '匹配两位数字
{n,}	匹配前面的子表达式不少于n次，例： go{2,)d、 '[0-9]{2,},匹配两位及两位以上数字
{n,m}	匹配前面的子表达式n到m次，例： go{2,3}d、 '[0-9]{2,3}匹配两位到三位数字
注意	egrep， awk使用{n}、{n,}、{n,m}匹配时“{}"前不用加“\”

5.4扩展正则表达式元字符

支持的工具：egerp、awk

元字符	解释
+	匹配前面子表达式1次以上，例：go+d，将匹配至少一个o,如god, good, goood等
?	匹配前面子表达式0次或者1次，例: go?d,将匹配gd或god
()	将括号中的字符串作为一个整体,例：g(oo) +d,将匹配。整体1次以上,如good,gooood等
l	以或的方式匹配字条串，例：g(oo la)d，将匹配good或者glad

5.5示例

新建一个文件
在这里插入图片描述
匹配o出现0次或者无数次

.表示任意字符

表示除adc之外的字符

o出现n次

表示o出现0次以上

显示出现1次或0次

5.5.1匹配电话号码

在这里插入图片描述

5.5.2匹配邮箱

在这里插入图片描述

苦兰若芷

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本处理命令（sort，uniq，tr，cut）及正则表达式

文本处理命令（sort，uniq，tr）及正则表达式一、sort命令1.sort命令的概述2.sort命令的语法格式3.sort命令的常用选项4.sort命令的示例二、uniq命令2.1uniq命令的概述2.2uniq命令的语法格式2.3uniq命令的常用选项2.4uniq命令的示例三、tr命令3.1tr命令的概述3.2tr命令的语法格式3.3tr命令的常用选项3.4tr命令的参数3.5tr命令的示例3.6数组排列四、cut命令4.1cut命令的概述4.2cut命令的语法格式4.3cut命令的常用选项4.4
复制链接

扫一扫