正则表达式笔记整理

最新推荐文章于 2020-01-19 13:50:26 发布

"大梦三千秋

最新推荐文章于 2020-01-19 13:50:26 发布

阅读量875

点赞数

分类专栏：正则表达式文章标签：正则表达式 Regex

本文链接：https://blog.csdn.net/weixin_45642918/article/details/101010253

版权

1 篇文章 0 订阅

订阅专栏

正则表达式（Regular Expression）是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为 “元字符"）。
正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则的字符串。

典型的搜索替换操作，针对静态文本的任务虽然足够，但缺乏灵活性。典型的方法可使用于动态文本，但会变得很困难
通过使用正则表达式，可以

普通字符包括没有显示指定元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

查找元字符本身，例如查找 . 或 * ，就会出现问题。
这里无法指定它们，因为它们会被解释成别的意思。这里需要使用 \ 来取消这些字符的特殊意义。因此，应该使用 \. 和 \*。当然，查找 \ 本身，也得用 \\ 。

*、+ 和？限定符都是贪婪的，因为它们会尽可能的匹配文字，只有在它们的后面加上？就可以实现非贪婪或最小匹配
例如，搜索 HTML 文档，以查找括在 H1 标记内的章节标题。文档如下：

<h1>Introduction to Regular Expressions</h1>

匹配从小于符号（<）开始到关闭 h1 标记的大于符号（>）之间的所有内容，表达式如下

<.*>

匹配开始的 h1 标记，下面是 ”非贪心“ 表达式

<.*?>

使用小括号指定一个子表达式后，匹配这个子表达式的文本可以在表达式或其他程序中进一步处理。默认情况下，每个分组会自动拥有一个组号，但(?:exp) 这样的语法会剥夺一个分组对组号分配的参与权。分组 0 对应整个正则表达式。

常用的分组语法

分类	符号	说明
捕获	(exp)	匹配 exp，并捕获文本到自动命名的组里
	(?exp)	匹配 exp，并捕获文本到名称为 name 的组里，也可以写成(?'name’exp)
	(?:exp)	匹配 exp，不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	匹配 exp 前面的位置
	(?<=exp)	匹配 exp 后面的位置
	(?!exp)	匹配后面跟的不是 exp 的位置
	(?<!exp)	匹配前面不是 exp 的位置
注释	(?#comment)	用于提供注释让人阅读