linux命令：awk

最新推荐文章于 2024-07-14 21:53:39 发布

XGorgeous

最新推荐文章于 2024-07-14 21:53:39 发布

阅读量122

点赞数

文章标签： linux 服务器运维

本文链接：https://blog.csdn.net/weixin_50606361/article/details/132781433

版权

一.什么是awk？

awk是一种文本处理工具，用于对文本文件进行扫描、处理和打印。它以行为单位处理文本，将每一行分割成字段，并可以执行各种操作，如搜索、替换、计算等。awk的名称取自其创始人的首字母（A、W、K）。

二.awk的基本语法

awk命令的基本语法结构如下：

awk 'pattern { action }' filename

pattern：用于匹配文本的模式或条件。如果省略模式部分，将匹配所有行。
action：在模式匹配的行上执行的操作。可以是打印、计算、替换等操作。
filename：要处理的文本文件的名称。如果省略文件名，awk将从标准输入读取数据。

1.awk的内置变量

awk提供了许多内置变量，用于在处理文本时引用不同的字段和行信息。以下是一些常用的内置变量：

$0：当前行的完整文本。
$1, $2, $3, ...：当前行的第1、第2、第3个字段，以此类推。
NR：当前行的行号。
NF：当前行的字段数。
FS：字段分隔符，默认为空格。

2.awk的基本用途

让我们通过一些实际的例子来了解awk的用途。

例子1：计算文件中数字的总和

假设我们有一个包含数字的文本文件numbers.txt，每行一个数字，我们想计算它们的总和：

awk '{ sum += $1 } END { print sum }' numbers.txt

在这个例子中，我们使用{ sum += $1 }来累加每行的第一个字段，然后在文件处理结束时使用END部分打印总和。

例子2：查找包含特定关键字的行

假设我们有一个日志文件access.log，我们想查找包含关键字"error"的行：

awk '/error/ { print }' access.log

这个命令使用模式/error/匹配包含"error"的行，并打印它们。

例子3：按条件打印行

假设我们有一个包含学生成绩的文件grades.txt，我们想打印所有数学成绩大于90分的行：

awk '$2 == "Math" && $3 > 90 { print }' grades.txt

在这个例子中，我们使用条件$2 == "Math" && $3 > 90来筛选出符合条件的行并打印它们。

三.awk的高级用法

除了基本用法外，awk还支持更复杂的操作，如循环、函数定义等。这些功能使awk成为一个非常强大的文本处理工具，适用于各种数据处理任务。

1. 使用条件语句

awk支持类似于C语言的条件语句，可以根据特定条件执行不同的操作。例如，我们可以根据成绩的不同范围打印不同的评价：

awk '{
  if ($3 >= 90) {
    print $1, "优秀"
  } else if ($3 >= 80) {
    print $1, "良好"
  } else if ($3 >= 70) {
    print $1, "中等"
  } else {
    print $1, "及格"
  }
}' grades.txt

2. 使用循环

awk也支持类似于C语言的循环结构。例如，我们可以计算所有学科的平均分：

awk '{
  sum = 0
  for (i = 2; i <= NF; i++) {
    sum += $i
  }
  average = sum / (NF-1)
  print $1, "平均分:", average
}' grades.txt

3. 自定义函数

awk允许用户定义自己的函数来进行复杂的数据处理。例如，我们可以定义一个函数来计算平方：

awk '{
  function square(x) {
    return x*x
  }
  print "数值:", $1, "平方:", square($1)
}' numbers.txt

4. 多文件处理

awk可以同时处理多个文件，将它们视为一个整体进行处理。例如，我们可以合并两个文件的内容：

awk '1' file1.txt file2.txt > merged.txt

这个例子中，1是一个始终为真的模式，它会将所有行打印到输出中。

5. 输出格式控制

awk可以通过printf函数控制输出的格式，可以指定字段的宽度、精度等。例如，我们可以将成绩保留两位小数输出：

awk '{ printf "%s %.2f\n", $1, $3 }' grades.txt

6. 使用正则表达式

awk对正则表达式的支持非常强大，可以用于更灵活的文本匹配和提取。

6.1 匹配特定模式的行

假设我们有一个包含IP地址的文件ip_addresses.txt，我们想匹配所有以192.168.开头的IP地址：

awk '/^192\.168\./ { print }' ip_addresses.txt

在这个例子中，/^192\.168\./使用正则表达式匹配以192.168.开头的行。

6.2 提取邮箱地址

如果我们有一个包含邮箱地址的文件emails.txt，我们想提取所有的邮箱地址：

awk '{
  while (match($0, /[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/)) {
    print substr($0, RSTART, RLENGTH)
    $0 = substr($0, RSTART + RLENGTH)
  }
}' emails.txt

在这个例子中，我们使用正则表达式/[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/来匹配邮箱地址。

6.3 替换特定模式

假设我们有一个包含日期的文件dates.txt，日期格式为YYYY-MM-DD，我们想将日期格式改为DD/MM/YYYY：

awk 'match($0, /([0-9]{4})-([0-9]{2})-([0-9]{2})/, arr) {
       print arr[3] "/" arr[2] "/" arr[1]
     }' dates.txt

使用正则表达式/([0-9]{4})-([0-9]{2})-([0-9]{2})/匹配日期，并通过数组arr将匹配到的年、月、日提取出来，然后按照新的格式输出。

6.4 来查找包含特定模式的行

awk '/[0-9]+/{ print }' data.txt

这个例子会打印包含至少一个数字的行。

7. 对文本进行排序

awk还可以与Linux的sort命令结合使用，以对文本进行排序。例如，如果我们有一个包含成绩的文件，可以按成绩降序排列：

awk '{ print $1, $3 }' grades.txt | sort -k2,2nr

这个命令将首先使用awk提取姓名和成绩，然后使用sort命令按成绩降序排列。

8. 处理CSV文件

awk也可以用于处理逗号分隔的CSV文件。假设我们有一个包含学生信息的CSV文件students.csv，可以使用awk来提取特定字段的信息：

awk -F, '{ print "姓名:", $1, "年龄:", $4 }' students.csv

在这个例子中，我们使用-F,选项指定逗号作为字段分隔符，然后提取姓名和年龄信息。

9. 批量重命名文件

awk还可以用于批量重命名文件。例如，如果我们有一组以数字开头的文件，并想将它们重命名为带有前缀的文件名：

ls | awk '{ printf("mv %s prefix_%s\n", $0, $0) }' | sh

这个命令会生成一系列mv命令，并通过管道执行它们，将文件重命名为带有前缀的新文件名。

10. 处理日志文件

在系统管理和故障排除过程中，日志文件是非常重要的信息源。awk可以用于过滤和分析日志文件，以查找特定事件或错误信息。例如，可以使用awk来查找某个时间段内的日志记录：

awk '/2023-09-09 10:00:00/,/2023-09-09 11:00:00/' access.log

这个例子将匹配日志中从10:00:00到11:00:00之间的所有记录。

总结

awk命令变换灵活，勤加练习才能熟练掌握精髓