linux文本三剑客

最新推荐文章于 2024-09-09 18:58:08 发布

小颜要努力

最新推荐文章于 2024-09-09 18:58:08 发布

阅读量1.6k

点赞数 36

文章标签： chrome 前端

本文链接：https://blog.csdn.net/weixin_71993565/article/details/140336619

版权

## sort基本概念

`sort`命令是Linux系统中用于对文本文件的行进行排序的实用工具。它可以根据不同的字段和选项来进行排序，默认情况下，`sort`命令会按照ASCII表顺序对文本行进行排序。

#### 基本用法

sort [options] [file]

- `[options]`: 指定排序的方式和其他选项。

- `[file]`: 要排序的文件，如果不指定，则从标准输入读取数据。

#### 常用选项

- `-b`: 忽略每行前面的空格。

- `-n`: 按数值大小进行排序。

- `-r`: 倒序排序，即从Z到A或从9到0。

- `-k`: 指定排序的关键字段，如`-k2`表示按照第二个字段排序。

- `-t`: 设置字段分隔符，默认为空格或制表符。

- `-u`: 去除重复的行。

- `-o`: 将输出结果保存到指定文件，而不是默认输出到标准输出。

#### 示例

1. 简单排序：

sort file.txt

2. 按数值排序：

sort -n file.txt

3. 按照第二列排序，并忽略前导空格：

sort -k2 -b file.txt

4. 使用冒号(:)作为分隔符，并按照第三列排序：

sort -t':' -k3 file.txt

5. 去除重复行并保存到新文件：

sort -u file.txt -o sorted_file.txt

#### 注意事项

- `sort`命令默认不会保留原文件的内容，如果需要保留，应该使用重定向或者`-o`选项。

- 在使用`-k`选项时，可以指定多个字段，如`-k2,3`表示同时考虑第二和第三个字段。

- `sort`命令对于大型文件的处理效率较高，但对于极大数据量的文件，可能需要考虑性能问题。

## wc基本概念

`wc`（word count）命令是Linux系统中用于统计文本文件中的字数、行数和字节数的实用工具。它可以快速地获取文件的基本统计信息，是文本处理和数据分析中的常用命令之一。

#### 基本用法

wc [options] [file...]

- `[options]`: 指定统计的方式和其他选项。

- `[file...]`: 要统计的文件列表，如果不指定文件，则从标准输入读取数据。

#### 常用选项

- `-l`: 仅统计行数（lines）。

- `-w`: 仅统计单词数（words）。

- `-c`: 仅统计字节数（bytes）。

- `-m`: 仅统计字符数（characters）。

- `-L`: 打印最长行的长度（通常以字符为单位）。

#### 示例

1. 统计文件的行数、单词数和字节数：

wc file.txt

输出类似于：`20 100 500 file.txt`，分别表示行数、单词数、字节数和文件名。

2. 仅统计行数：

wc -l file.txt

输出为文件的行数。

3. 仅统计单词数：

wc -w file.txt

输出为文件的单词数。

4. 仅统计字节数：

wc -c file.txt

输出为文件的字节数。

5. 统计多个文件的总行数：

wc -l file1.txt file2.txt file3.txt

输出为各个文件的行数总和。

#### 注意事项

- `wc`命令默认会同时显示行数、单词数和字节数。

- 单词的定义通常是以空白字符（空格、制表符、换行符等）分隔的字符串。

- 在统计字符数时，`wc -m`会计算所有字符，包括特殊字符和不可见字符。

- `wc`命令对于大型文件的处理效率较高，但对于极大数据量的文件，可能需要考虑性能问题。

#### 进阶技巧

- 结合管道和其他命令使用，如`grep`, `awk`, `sed`等，可以实现更复杂的文本统计。

- 使用`wc -L`可以找到文件中最长的行，这在处理配置文件或日志文件时很有用。

通过掌握`wc`命令的基本用法和选项，可以有效地对文本数据进行统计分析，为后续的数据处理和报告制作提供基础信息。

## cut基本概念

`cut`命令是Linux系统中用于从文件或标准输入中剪切（提取）特定部分内容的实用工具。它通常用于提取文件中的列数据，特别是在处理表格型数据时非常有用。

#### 基本用法

cut [options] [file...]

- `[options]`: 指定操作的方式和其他选项。

- `[file...]`: 要处理的文件列表，如果不指定文件，则从标准输入读取数据。

#### 常用选项

- `-d`: 设置字段分隔符，默认为制表符。

- `-f`: 选择要提取的字段编号，多个字段可以用逗号分隔，或者使用连字符指定范围。

- `-c`: 选择要提取的字符位置，可以是一个数字，一组数字，或者用连字符指定范围。

- `-s`: 不打印没有分隔符的行。

#### 示例

1. 提取文件的第一列（假设分隔符为制表符）：

cut -f1 file.txt

2. 提取文件的第二列和第三列（假设分隔符为冒号）：

cut -d':' -f2,3 file.txt

3. 提取每行的第5到第10个字符：

cut -c5-10 file.txt

4. 提取每行的前三个单词：

cut -d' ' -f1-3 file.txt

5. 不打印没有分隔符的行，并提取第一列：

cut -s -f1 file.txt

#### 注意事项

- `cut`命令默认使用制表符作为分隔符，如果文件使用其他字符作为分隔符，必须使用`-d`选项指定。

- `-f`选项用于提取字段，而`-c`选项用于提取字符位置，两者不能混用。

- 当使用`-f`选项时，字段编号从1开始计数。

- `cut`命令对于大型文件的处理效率较高，但对于极大数据量的文件，可能需要考虑性能问题。

## grep基本概念

`grep`（Global Regular Expression Print）是Linux系统中用于搜索文本的强大工具，它能够使用正则表达式来匹配文本行，并将匹配的行打印出来。`grep`命令广泛应用于脚本编程、日志分析、文本处理等领域。

#### 基本用法

grep [options] pattern [file...]

- `[options]`: 指定搜索的选项。

- `pattern`: 要搜索的正则表达式模式。

- `[file...]`: 指定要搜索的文件列表，如果省略，则从标准输入读取数据。

#### 常用选项

- `-i`: 忽略大小写。

- `-v`: 反转搜索结果，显示不匹配指定模式的行。

- `-n`: 显示匹配行及其在文件中的行号。

- `-c`: 仅显示匹配行的数量。

- `-l`: 仅显示包含匹配字符的文件名。

- `-r`: 递归搜索指定目录及其子目录中的文件。

- `-s`: 抑制错误信息的输出。

- `-o`: 只输出匹配的部分，而不是整个行。

- `-E`: 使用扩展正则表达式。

- `--color`: 高亮显示匹配的文本。

#### 正则表达式基础

- `.`: 匹配除换行符以外的任意单个字符。

- `*`: 匹配前面的元素零次或多次。

- `^`: 匹配行的开始。

- `$`: 匹配行的结束。

- `[]`: 匹配括号内的任意单个字符。

- `[^]`: 匹配不在括号内的任意单个字符。

- `|`: 逻辑或，匹配左侧或右侧的表达式。

- `()`: 分组，将括号内的表达式作为一个整体进行匹配。

#### 高级搜索技巧

- 使用`-P`选项启用Perl兼容的正则表达式，提供更多正则表达式功能。

- 组合使用`grep`和管道(`|`)命令，如`ps aux | grep sshd`，来筛选进程列表。

- 使用`-F`选项将模式当作固定字符串而非正则表达式处理，适合精确匹配。

#### 示例

1. 搜索文件中包含"error"的所有行：

grep "error" logfile.txt

2. 搜索文件中不包含"error"的所有行：

grep -v "error" logfile.txt

3. 搜索文件中"error"出现的行号：

grep -n "error" logfile.txt

4. 递归搜索当前目录及其子目录中包含"config"的所有`.conf`文件：

grep -rl "config" ./*.conf

5. 高亮显示匹配的文本：

grep --color "error" logfile.txt

#### 注意事项

- 正则表达式中的特殊字符（如`.`、`*`等）需要转义才能按字面意义匹配。

- 在使用复杂的正则表达式时，确保括号和操作符的配对正确，以避免语法错误。

- 在处理大量数据时，合理使用`grep`的选项可以提高搜索效率。

## sed基本概念

`sed`（Stream Editor）是Linux系统中用于处理文本的强大工具，它可以执行基本的文本转换，如搜索、替换、插入、删除等操作。`sed`命令适用于批处理文本文件，也可以从标准输入读取数据进行处理。

#### 基本用法

`sed`命令的基本语法如下：

sed [options] 'command' [file...]

- `[options]`: 指定`sed`命令的各种选项。

- `'command'`: 定义要在输入数据上执行的操作。

- `[file...]`: 指定要处理的文件列表，如果省略，则从标准输入读取数据。

#### 常用选项

- `-n`: 默认为输出模式，只有通过`p`命令显式打印的内容才会显示。

- `-e`: 允许传递多个`sed`命令。

- `-f`: 从文件中读取`sed`脚本。

- `-i`: 直接修改文件内容，在Mac OS X中可能需要指定备份文件名。

#### 核心命令

- `s`: 用于替换文本，格式为`s/pattern/replacement/flags`。

- `d`: 删除指定的行或匹配的行。

- `i`: 在指定的位置插入文本。

- `a`: 在指定的位置追加文本。

- `p`: 打印匹配的行或指定的行。

- `c`: 替换指定的行或范围内的行。

- `h`: 将模式空间的内容复制到保持空间。

- `H`: 将模式空间的内容追加到保持空间，并添加一个换行符。

- `x`: 交换模式空间和保持空间的内容。

- `G`: 向模式空间的末尾追加一个由`g`标志控制的回车换行序列。

#### 正则表达式支持

`sed`支持基本和扩展的正则表达式，可以进行复杂的模式匹配。

#### 示例1. 将文件中的所有"old"替换为"new"：

sed 's/old/new/g' filename.txt

2. 删除文件中的第二行：

sed '2d' filename.txt

3. 在文件的第三行之前插入"new_line"：

sed '3i new_line' filename.txt

4. 仅打印文件的第五行：

sed -n '5p' filename.txt

5. 直接修改文件内容，将所有"example"替换为"examle2"：

sed -i 's/example/example2/g' filename.txt

####注意事项

- `sed`命令的模式空间和保持空间是独立的，可以用来临时存储和处理文本。

- `sed`命令默认以多行模式工作，每个输入行都会经过一次完整的处理周期。

- 使用`-i`选项时，请确保理解其对原始文件的影响，尤其是在生产环境中。

小颜要努力

关注

36
点赞
踩
28

收藏

觉得还不错? 一键收藏
2
评论
linux文本三剑客

组合使用`grep`和管道(`|`)命令，如`ps aux | grep sshd`，来筛选进程列表。- `cut`命令默认使用制表符作为分隔符，如果文件使用其他字符作为分隔符，必须使用`-d`选项指定。- 结合管道和其他命令使用，如`grep`, `awk`, `sed`等，可以实现更复杂的文本统计。- `sort`命令默认不会保留原文件的内容，如果需要保留，应该使用重定向或者`-o`选项。- 在使用`-k`选项时，可以指定多个字段，如`-k2,3`表示同时考虑第二和第三个字段。
复制链接

扫一扫