一、题目描述
给定一个包含电话号码列表(一行一个电话号码)的文本文件 file.txt
,写一个单行 bash 脚本输出所有有效的电话号码。
你可以假设一个有效的电话号码必须满足以下两种格式: (xxx) xxx-xxxx 或 xxx-xxx-xxxx。(x 表示一个数字)
你也可以假设每行前后没有多余的空格字符。
示例:
假设 file.txt
内容如下:
987-123-4567 123 456 7890 (123) 456-7890
你的脚本应当输出下列有效的电话号码:
987-123-4567 (123) 456-7890
二、解题思路
为了从文件 file.txt
中筛选出有效的电话号码,我们可以使用 Bash 的正则表达式匹配功能。在 Bash 中,可以使用 grep
命令来搜索与正则表达式匹配的字符串。以下是步骤:
- 使用
grep
命令读取文件file.txt
。 - 利用
-P
选项启用 Perl 兼容正则表达式,因为我们需要使用更复杂的正则表达式,比如圆括号。 - 定义一个正则表达式,它能够匹配格式为
(xxx) xxx-xxxx
或xxx-xxx-xxxx
的电话号码。 - 将匹配到的电话号码输出到标准输出(stdout)。
三、具体代码
grep -P '^\([0-9]{3}\) [0-9]{3}-[0-9]{4}$|^[0-9]{3}-[0-9]{3}-[0-9]{4}$' file.txt
解释:
^
表示行的开始。\(
和\)
分别匹配圆括号。由于圆括号在正则表达式中具有特殊意义,所以需要使用反斜杠\
进行转义。[0-9]{3}
匹配三个数字。- 匹配空格字符。
-
匹配连字符。[0-9]{4}
匹配四个数字。$
表示行的结束。|
是逻辑或操作符,用于匹配两种格式之一。
执行上述命令,将输出 file.txt
文件中所有格式正确的电话号码。
四、时间复杂度和空间复杂度
1. 时间复杂度
- 时间复杂度主要取决于
grep
命令对文件file.txt
的处理方式。grep
命令会逐行读取文件内容,并对每一行应用正则表达式进行匹配。 - 对于每一行,正则表达式的匹配时间复杂度为 O(n),其中 n 是该行的长度。因为正则表达式中的量词
{3}
和{4}
会导致正则表达式引擎对文本进行最多 7 次的匹配尝试(每个数字组一次,总共三个数字组)。 - 因此,如果文件中有 m 行,总的时间复杂度大致为 O(m * n),即文件的总字符数。
2. 空间复杂度
- 空间复杂度主要取决于存储文件内容、正则表达式状态和输出结果所需的内存。
- 文件内容:需要存储当前正在处理的行,空间复杂度为 O(n)。
- 正则表达式状态:正则表达式引擎在匹配过程中需要存储状态信息,但这个空间通常较小,可以认为是 O(1)。
- 输出结果:如果匹配到的行数远小于文件的总行数,那么输出结果的空间复杂度可以认为是 O(k),其中 k 是匹配到的行数。
- 因此,总的空间复杂度大致为 O(n + 1 + k),即 O(n + k)。在大多数情况下,可以简化为 O(n),因为 k 通常远小于 n。
总结:
- 时间复杂度:O(m * n),其中 m 是文件的行数,n 是每行的平均长度。
- 空间复杂度:O(n),其中 n 是每行的平均长度。
五、总结知识点
-
命令行工具:
grep
是一种强大的文本搜索工具,常用于在文件中搜索匹配特定模式的字符串。 -
正则表达式:该命令使用了正则表达式来定义搜索模式,正则表达式是用于描述字符排列和匹配模式的一种语言。
-
正则表达式模式:
^
表示行的开始。\(
和\)
用于匹配圆括号字符,需要使用反斜杠进行转义。[0-9]{3}
匹配连续的三个数字。- 匹配空格字符。
-
匹配连字符。$
表示行的结束。|
是逻辑“或”操作符,允许匹配正则表达式的左边或右边模式。
-
Perl兼容正则表达式:
-P
选项启用 Perl 兼容的正则表达式,这意味着可以使用 Perl 语言中的一些高级正则表达式特性。 -
文件处理:该命令读取
file.txt
文件,并对其内容执行搜索操作。 -
输出筛选:
grep
命令仅输出那些与正则表达式匹配的行,从而实现筛选功能。
以上就是解决这个问题的详细步骤,希望能够为各位提供启发和帮助。