文本处理
sort
排序命令:
常用选项 | 说明 |
---|---|
-r | 反转排序 |
-t | 指定分隔符 |
-k | 用于指定对哪一个字段进行排序 |
-n | 按照数字排序 |
tr
命令:
tr [option]...SET1 [SET2]
可以用来删除一段文本信息中的某些文字。或者将其进行转换。
常用选项 | 说明 |
---|---|
-d | 删除和set1匹配的字符,注意不是全词匹配也不是按字符顺序匹配 |
-s | 去除set1指定的在输入文本中连续并重复的字符 |
join
命令
join [option]... file1 file2
将每个文件中栏位(也就是第一列)相等的那些行的数据连接起来。
常用选项 | 说明 |
---|---|
-t | 指定分隔符,默认为空格 |
-i | 忽略大小写的差异 |
-1 | 指明第一个文件要用哪个字段来对比,默认对比第一个字段 |
-2 | 指明第二个文件要用哪个字段来对比,默认对比第一个字段 |
grep
模式匹配命令:
常用选项 | 说明 |
---|---|
-n | 显示匹配文本所在行的行号 |
-i | 忽略大小写 |
-v | 反选,输出不匹配行的内容 |
-c | 统计以模式匹配的数目 |
-r | 递归匹配查找 |
-E | 过滤筛选条件 |
当^
放到中括号内为排除字符,否则表示行首。
Cut
字符截取命令:
Cut
字段提取命令:一般与grep
命令一起使用 默认以tab
键为分割
常用选项 | 说明 |
---|---|
-f | 列号: 提取第几列 |
-d | 分割符: 按照指定分割符分割列(只能识别tab键或具体的分割符) |
Sed
命令(处理行):
流编辑器(支持管道操作) 对数据选取、替换、删除、新增
Sed [选项] ‘[动作]’ 文件名
允许多个条件同时执行用
;
连接
常用选项 | 说明 |
---|---|
-n | 只输出经过处理的行 |
-e | 执行多条命令 |
-i | 直接修改文件 |
常用动作 | 说明 |
---|---|
d | 删除行数据 |
p | 输出 |
s | 替换字符串 格式 :‘行范围s/旧字符串/新字符串/g’ |
g | 整行操作 |
c | 替换整行数据 |
a | 在后追加整行数据 |
i | 在之前插入整行数据 |
Awk
命令(处理列):
awk‘条件1 {动作1} 条件2 {动作2}...’ 文件名
条件:一般使用关系表达式作为条件(
>、<、=
动作:格式化输出、流程控制语句
$列号
:选取第几列
Awk
处理数据是先读入一行数据,在判断符合条件的数据
awk
中使用,并在最后自动添加换行符
Printf
可以awk
和系统中使用,不自动加入换行符
- 后记:
有需要的朋友可以搜索微信公众号:【知音库】
这里有个人总结的文章,本人是大数据专业学生,
同时也是为了鼓励自己,坚持写笔记,希望可以共同进步。