Go语言正则表达式:regexp包

本文详细介绍了正则表达式的基本概念、语法规则,并以Go语言为例,展示了如何使用regexp包进行模式匹配。通过多个示例,演示了正则表达式在匹配、查找和替换字符串中的应用,包括数字、边界、分组和特殊构造等。
摘要由CSDN通过智能技术生成

正则表达式是一种进行模式匹配和文本操纵的复杂而又强大的工具。虽然正则表达式比纯粹的文本匹配效率低,但是它却更灵活,按照它的语法规则,根据需求构造出的正则表达式能够从原始文本中筛选出几乎任何你想要得到的字符组合。

Go语言通过 regexp 包为正则表达式提供了官方支持,其采用 RE2 语法,除了\c\C外,Go语言和 Perl、Python 等语言的正则基本一致。

正则表达式语法规则

正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")构成的文字序列,可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。

下面的表格中列举了构成正则表达式的一些语法规则及其含义。

1) 字符

语法说明表达式示例匹配结果
一般字符匹配自身abcabc
.匹配任意除换行符"\n"外的字符, 在 DOTALL 模式中也能匹配换行符a.cabc
\转义字符,使后一个字符改变原来的意思;
如果字符串中有字符 * 需要匹配,可以使用 \* 或者字符集[*]。
a\.c
a\\c
a.c
a\c
[...]字符集(字符类),对应的位置可以是字符集中任意字符。
字符集中的字符可以逐个列出,也可以给出范围,如 [abc] 或 [a-c],
第一个字符如果是 ^ 则表示取反,如 [^abc] 表示除了abc之外的其他字符。
a[bcd]eabe 或 ace 或 ade
\d数字:[0-9]a\dca1c
\D非数字:[^\d]a\Dcabc
\s空白字符:[<空格>\t\r\n\f\v]a\sca c
\S非空白字符:[^\s]a\Scabc
\w单词字符:[A-Za-z0-9]a\wcabc
\W非单词字符:[^\w]a\Wca c

2) 数量词(用在字符或 (...) 之后)

语法说明表达式示例匹配结果
*匹配前一个字符 0 或无限次abc*ab 或 abccc
+匹配前一个字符 1 次或无限次abc+abc 或 abccc
?匹配前一个字符 0 次或 1 次abc?ab 或 abc
{m}匹配前一个字符 m 次ab{2}cabbc
{m,n}匹配前一个字符 m 至 n 次,m 和 n 可以省略,若省略 m,则匹配 0 至 n 次;
若省略 n,则匹配 m 至无限次
ab{1,2}cabc 或 abbc

3) 边界匹配

语法说明表达式示例匹配结果
^匹配字符串开头,在多行模式中匹配每一行的开头^abcabc
$匹配字符串末尾,在多行模式中匹配每一行的末尾abc$abc
\A仅匹配字符串开头\Aabcabc
\Z仅匹配字符串末尾abc\Zabc
\b匹配 \w 和 \W 之间a\b!bca!bc
\B[^\b]a\Bbcabc

4) 逻辑、分组

语法说明表达式示例匹配结果
|| 代表左右表达式任意匹配一个,优先匹配左边的表达式abc|defabc 或 def
(...)括起来的表达式将作为分组,分组将作为一个整体,可以后接数量词(abc){2}abcabc
(?P<name>...)分组,功能与 (...) 相同,但会指定一个额外的别名(?P<id>abc){2}abcabc
\<number>引用编号为 <number> 的分组匹配到的字符串(\d)abc\11abe1 或 5abc5
(?P=name)引用别名为 <name> 的分组匹配到的字符串(?P<id>\d)abc(?P=id)1abe1 或 5abc5

5) 特殊构造(不作为分组)

语法说明表达式示例匹配结果
(?:...)(…) 的不分组版本,用于使用 "|" 或后接数量词(?:abc){2}abcabc
(?iLmsux)iLmsux 中的每个字符代表一种匹配模式,只能用在正则表达式的开头,可选多个(?i)abcAbC
(?#...)# 后的内容将作为注释被忽略。abc(?#comment)123 abc123
(?=...)之后的字符串内容需要匹配表达式才能成功匹配a(?=\d)后面是数字的 a
(?!...)之后的字符串内容需要不匹配表达式才能成功匹配a(?!\d)后面不是数字的 a
(?<=...)之前的字符串内容需要匹配表达式才能成功匹配(?<=\d)a前面是数字的a
(?<!...)之前的字符串内容需要不匹配表达式才能成功匹配(?<!\d)a前面不是数字的a

Regexp 包的使用

下面通过几个示例来演示一下 regexp 包的使用。

【示例 1】匹配指定类型的字符串。

 
  1. package main
  2. import (
  3. "fmt"
  4. "regexp"
  5. )
  6. func main() {
  7. buf := "abc azc a7c aac 888 a9c tac"
  8. //解析正则表达式,如果成功返回解释器
  9. reg1 := regexp.MustCompile(`a.c`)
  10. if reg1 == nil {
  11. fmt.Println("regexp err")
  12. return
  13. }
  14. //根据规则提取关键信息
  15. result1 := reg1.FindAllStringSubmatch(buf, -1)
  16. fmt.Println("result1 = ", result1)
  17. }

运行结果如下:

result1 =  [[abc] [azc] [a7c] [aac] [a9c]]  

【示例 2】匹配 a 和 c 中间包含一个数字的字符串。

 
  1. package main
  2. import (
  3. "fmt"
  4. "regexp"
  5. )
  6. func main() {
  7. buf := "abc azc a7c aac 888 a9c tac"
  8. //解析正则表达式,如果成功返回解释器
  9. reg1 := regexp.MustCompile(`a[0-9]c`)
  10. if reg1 == nil { //解释失败,返回nil
  11. fmt.Println("regexp err")
  12. return
  13. }
  14. //根据规则提取关键信息
  15. result1 := reg1.FindAllStringSubmatch(buf, -1)
  16. fmt.Println("result1 = ", result1)
  17. }

运行结果如下:

result1 =  [[a7c] [a9c]]

【示例 3】使用 \d 来匹配 a 和 c 中间包含一个数字的字符串。

 
  1. package main
  2. import (
  3. "fmt"
  4. "regexp"
  5. )
  6. func main() {
  7. buf := "abc azc a7c aac 888 a9c tac"
  8. //解析正则表达式,如果成功返回解释器
  9. reg1 := regexp.MustCompile(`a\dc`)
  10. if reg1 == nil { //解释失败,返回nil
  11. fmt.Println("regexp err")
  12. return
  13. }
  14. //根据规则提取关键信息
  15. result1 := reg1.FindAllStringSubmatch(buf, -1)
  16. fmt.Println("result1 = ", result1)
  17. }

运行结果如下:

result1 =  [[a7c] [a9c]]

【示例 4】匹配字符串中的小数。

 
  1. package main
  2. import (
  3. "fmt"
  4. "regexp"
  5. )
  6. func main() {
  7. buf := "43.14 567 agsdg 1.23 7. 8.9 1sdljgl 6.66 7.8 "
  8. //解释正则表达式
  9. reg := regexp.MustCompile(`\d+\.\d+`)
  10. if reg == nil {
  11. fmt.Println("MustCompile err")
  12. return
  13. }
  14. //提取关键信息
  15. //result := reg.FindAllString(buf, -1)
  16. result := reg.FindAllStringSubmatch(buf, -1)
  17. fmt.Println("result = ", result)
  18. }

运行结果如下:

result =  [[43.14] [1.23] [8.9] [6.66] [7.8]]

【示例 5】匹配 div 标签中的内容。

 
  1. package main
  2. import (
  3. "fmt"
  4. "regexp"
  5. )
  6. func main() {
  7. // 原生字符串
  8. buf := `
  9. <!DOCTYPE html>
  10. <html lang="zh-CN">
  11. <head>
  12. <title>C语言中文网 | Go语言入门教程</title>
  13. </head>
  14. <body>
  15. <div>Go语言简介</div>
  16. <div>Go语言基本语法
  17. Go语言变量的声明
  18. Go语言教程简明版
  19. </div>
  20. <div>Go语言容器</div>
  21. <div>Go语言函数</div>
  22. </body>
  23. </html>
  24. `
  25. //解释正则表达式
  26. reg := regexp.MustCompile(`<div>(?s:(.*?))</div>`)
  27. if reg == nil {
  28. fmt.Println("MustCompile err")
  29. return
  30. }
  31. //提取关键信息
  32. result := reg.FindAllStringSubmatch(buf, -1)
  33. //过滤<></>
  34. for _, text := range result {
  35. fmt.Println("text[1] = ", text[1])
  36. }
  37. }

运行结果如下:

text[1] =  Go语言简介
text[1] =  Go语言基本语法
    Go语言变量的声明
    Go语言教程简明版
   
text[1] =  Go语言容器
text[1] =  Go语言函数

【示例 6】通过 Compile 方法返回一个 Regexp 对象,实现匹配,查找,替换相关的功能。

 
  1. package main
  2. import (
  3. "fmt"
  4. "regexp"
  5. "strconv"
  6. )
  7. func main() {
  8. //目标字符串
  9. searchIn := "John: 2578.34 William: 4567.23 Steve: 5632.18"
  10. pat := "[0-9]+.[0-9]+" //正则
  11. f := func(s string) string{
  12. v, _ := strconv.ParseFloat(s, 32)
  13. return strconv.FormatFloat(v * 2, 'f', 2, 32)
  14. }
  15. if ok, _ := regexp.Match(pat, []byte(searchIn)); ok {
  16. fmt.Println("Match Found!")
  17. }
  18. re, _ := regexp.Compile(pat)
  19. //将匹配到的部分替换为 "##.#"
  20. str := re.ReplaceAllString(searchIn, "##.#")
  21. fmt.Println(str)
  22. //参数为函数时
  23. str2 := re.ReplaceAllStringFunc(searchIn, f)
  24. fmt.Println(str2)
  25. }

输出结果:

Match Found!
John: ##.# William: ##.# Steve: ##.#
John: 5156.68 William: 9134.46 Steve: 11264.36

上面代码中 Compile 方法可以解析并返回一个正则表达式,如果成功返回,则说明该正则表达式正确可用于匹配文本。

另外我们也可以使用 MustCompile 方法,它也可以像 Compile 方法一样检验正则的有效性,但是当正则不合法时程序将 panic。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值