正则表达式(Regular Expression),简称为 regex 或 regexp,是由一些元字符和操作符组成的模式,用于描述要匹配的文本的特征,本身并不是函数。它是一种用来匹配和处理文本的强大工具,基于模式匹配和字符组合的规则,可用于搜索、替换、验证和提取子字符串。
正则表达式可以包括字母、数字、特殊字符和操作符,每个字符都有特定的含义和功能。
下面是一些常见的正则表达式元字符和操作符的含义:
.
:匹配任意单个字符,除了换行符。^
:匹配行的开始位置。$
:匹配行的结束位置。*
:匹配前面的字符零次或多次。+
:匹配前面的字符一次或多次。?
:匹配前面的字符零次或一次。{n}
:匹配前面的字符恰好 n 次。{n,}
:匹配前面的字符至少 n 次。{n,m}
:匹配前面的字符至少 n 次,但不超过 m 次。[]
:定义字符类,匹配其中的任意一个字符。|
:或操作符,匹配两个或多个模式中的一个。\
:转义字符,用于匹配特殊字符。
正则表达式可以通过构建合适的模式,并应用于目标文本进行匹配、查找、替换等操作。它广泛应用于文本处理、表单验证、日志分析、数据提取等领域。
在 C# 中,System.Text.RegularExpressions
命名空间提供了一组函数和类,用于处理正则表达式,里面的函数和类提供了一种方便的方式来使用正则表达式进行字符串匹配、查找和替换等操作。