sort
1、原则:sort以文件一行为一个单位,依次按ASCII码值从首字符向后进行比较,最后将他们按升序输出。
sort默认的排序方式为升序
2、常见选项
- -r:按降序输出
- -u:在输出行去除重复行
- -n:以数值来进行排序
- -t:设定间隔符
- -k:在设定间隔符后,用来指定列数进行排序
- -f:忽略大小写进行比较
- -c:检查文件是否已排好序,若没有则输出第一个乱序的行的信息,最后返回1
- -C:检查文件是否已排好序,若没有则不输出内容,仅返回1
- -b:忽略每一行前面的所有空白部分进行比较
uniq
常用选项
- -c:在每行行首加上本行在文件中出现的次数
- -d:只显示重复行
- -u:只显示不重复的行
paste
paste主要是按行合并多个文件的内容,缺省时用空格或Tab键分隔新行中的不同文本。
每一行称为一条记录;
按列分隔符可以将一行分为多列;
进行行划分时应注意:行分隔符——\n
列分隔符——空格或Tab键
常见选项
- -d:指定域(列)分隔符
- -s:将每个文件合并成行而不是按行粘贴
- -:paste - ——每一行有一列,paste -- ——每一行有两列。对每一个(-),从标准输入中读一次数据
cut
cut命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定file参数,cut命令将读取标准输入。必须指定-b、-c或-f标志之一。
常见选项
- -b:以字节为单位进行分割
- -c: 以字符为单位进行分割
- -d:自定义分隔符,默认为制表符
- -f:与-d仪器使用,指定显示哪个区域
xargs
xargs命令是给其他命令传递参数的一个过滤器,也是组合多个命令的一个工具。
它擅长将标准输入数据转换成命令行参数,xargs能够处理管道或stdin并将其转换成特定命令的命令参数。
xargs也可以将单行或多行文本输入转换为其他格式。例:多行变一行,一行变多行。
xargs的默认命令是echo,空格是默认定界符。
使用
(1)对文件进行格式化输出,将文件的多行输入转成单行输出
- -n:指定列数,并多行输出
- -d自定义一个域分隔符,将特定的列打散,并指定格式输出
(2)将格式化后的字符串作为命令行参数传递给其他命令,组装完成批量任务
- -l:指定替换字符串{},这个字符串在xargs扩展时会被替换掉。当-l和xargs结合使用,每一个参数命令都会被执行一次
(3)find、xargs、rm混合使用
grep
grep按照关键字或者正则表达式进行过滤
常用选项
- -E:
- -v:
- -r/R:递归方式搜索
- -q:安静模式匹配,匹配成功退出码为0,否则退出码为1
- -i:忽略大小写
- -n:输出匹配行的行号
- -o:只输出文件中匹配到的部分
sed
sed是六编辑器。处理数据时,把当前处理的行存储在临时缓冲区中,称为“模式空间”,接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。
sed主要用来自动编辑一个或多个文件
命令格式
sed [options] 'command' file(s)
sed [options] -f scriptfile file(s)
常见基本使用
- /pattern/p:打印匹配pattern的行
- /pattern/d:删除匹配pattern的行
- /pattern/s/pattern1/pattern2/:查找复合pattern的行,将该行第一个匹配pattern1的字符串替换成pattern2(后面的替换前面的)
- /pattern/s/pattern1/pattern2/g:查找复合pattern的行,将该行所有匹配pattern1的字符串替换成pattern2(后面的替换前面的)
- 定址:用于决定对哪些行进行编辑。如果没有指定地址,sed将处理输入文件的所有行
- 退出状态:不管是否找到指定的模式,它的退出状态都是0。只有当命令存在语法错误时,sed的退出状态才不是0
模式空间&保持空间
sed在正常情况下,将处理的行读入模式空间,脚本中的“sed-command(sed命令)”就一条接着一条进行处理,直到脚本执行完毕。然后该行被输出,模式被清空;接着重复之前的动作读入文件的下一行,直到处理完整个脚本。
模式空间(pattern space):可以想象成工程里面的流水线,只做数据的处理。
保持空间(hold space):可以想象成仓库,只做数据的临时存储。
无论是模式空间还是保持空间处理的数据只有一行时没有\n,多行时会自动把\n加上。
sed高级命令
- g:将hold space中的内容拷贝到pattern space中,原来pattern space里的内容清除
- G:将hold space中的内容append(追加)到pattern space
- h:将pattern space中的内容拷贝到hold space中,原来pattern space里的内容清除
- H:将pattern space中的内容append(追加)到hold space
- d:删除pattern中的所有行,并读入下一新行到pattern中
- D:删除multiline pattern(模式空间的多行)中的第一行,不读如下一行
- x:交换保持空间和模式空间的内容
- N:将下一行添加到pattern space中
- n:读取下一行到pattern space
awk
sed以行为单位处理文件,awk比sed强的地方不仅在于能以行为单位还能以列为单位处理文件。
awk缺省的行分隔符是换行,缺省的列分隔符是连续的空格或Tab键,并且行分隔符和列分隔符都可以自定义。
awk命令行的基本形式:
命令行:awk option 'script' file1 file2 ...
指定一个脚本文件:awk option -f scriptfile file1 file2 ...
和sed一样,awk处理文件既可以从标准输入重定向得到,也可以当命令行参数传入。
编辑命令可以直接当命令行参数传入,也可以用-f参数指定一个脚本文件。
编辑命令格式:
pattern/{actions} #正则匹配
condition{actions} #条件
使用print命令输出符合正则表达式的结果行
awk定制输入输出符
awk默认按照空格作为分隔符,但是-F选项可以支持多种符号进行定制分隔符。
BEGIN & END
BEGIN和END在awk中的可以做文本处理之前的准备工作和之后的收尾工作,基本格式:
BEGIN{} /REG/{} END{}
BEGIN{} condition{} END{}
使用BEGIN来显示变量和预置(初始化)变量,使用END来输出最终结果
awk脚本
awk内置变量
find
Linux下find命令在目录结构