Java正则表达式

最新推荐文章于 2024-07-27 18:40:58 发布

zw6161080123

最新推荐文章于 2024-07-27 18:40:58 发布

阅读量2.6k

点赞数 6

1. 正则表达式规则

1.1 普通字符

     字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是"普通字符"。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。

    举例1：表达式 "c"，在匹配字符串 "abcde" 时，匹配结果是：成功；匹配到的内容是："c"；匹配到的位置是：开始于2，结束于3。（注：下标从0开始还是从1开始，因当前编程语言的不同而可能不同）

    举例2：表达式 "bcd"，在匹配字符串 "abcde" 时，匹配结果是：成功；匹配到的内容是："bcd"；匹配到的位置是：开始于1，结束于4。

1.2 简单的转义字符

一些不便书写的字符，采用在前面加 "\" 的方法。这些字符其实我们都已经熟知了。

表达式	可匹配
\r, \n	代表回车和换行符
\t	制表符
\\	代表 "\" 本身

还有其他一些在后边章节中有特殊用处的标点符号，在前面加 "\" 后，就代表该符号本身。比如：^, $ 都有特殊意义，如果要想匹配字符串中 "^" 和 "$" 字符，则表达式就需要写成 "\^" 和 "\$"。

表达式	可匹配
\^	匹配 ^ 符号本身
\$	匹配 $ 符号本身
\.	匹配小数点（.）本身

这些转义字符的匹配方法与 "普通字符" 是类似的。也是匹配与之相同的一个字符。

举例1：表达式 "\$d"，在匹配字符串 "abc$de" 时，匹配结果是：成功；匹配到的内容是："$d"；匹配到的位置是：开始于3，结束于5。

注意：在java中的String使用中，我们知道"\"表示转义符。但是在java中的正则表达式中，有时候需要用到"\"来表示一些特定的符号，比如 \d 在正则表达式中表示匹配一位数字，但用到正则表达式中则必须使用 \\ 这样的双反斜杠来表示一个 \ 。也就是说我们在代码中必须写成 \\d 来匹配一个数组，相当于正则表达式中的 \d 。因为正则表达式其实就是一个字符串。

假如你想在正则表达式中插入一个正常的 \ ，则需要写入 \\\\ 。

 
         private 
         static 
         String s =  
         "\\12" 
         ; 
        
         public 
         static 
         void 
         main(String[] args) { 
        
         testOne(s); 
        
         } 
        
         private 
         static 
         void 
         testOne(String s){ 
        
         System.out.println(s); 
        
         System.out.println(s.contains( 
         "\\" 
         )); 
        
         System.out.println(s.matches( 
         "\\\\?\\d+" 
         )); 
        
         }

注意看一下这段程序中的表示: s=\12 ,这是我们的待匹配字符串，它包含了一个 \ 和两个数字 12 。 String.contains()方法能匹配字符串，可以使用正常的 \\ 表示方法，但是在String.match()方法中是正则表达式，此时必须使用 \\\\ 来表示一个正常的 \ 方可匹配成功。

1.3 能够与 '多种字符' 匹配的表达式

正则表达式中的一些表示方法，可以匹配 '多种字符' 其中的任意一个字符。比如，表达式 "\d" 可以匹配任意一个数字。虽然可以匹配其中任意字符，但是只能是一个，不是多个。这就好比玩扑克牌时候，大小王可以代替任意一张牌，但是只能代替一张牌。

表达式	可匹配
\d	任意一个数字，0~9 中的任意一个
\w	任意一个字母或数字或下划线，也就是 A~Z,a~z,0~9,_ 中任意一个
\s	包括空格、制表符、换页符等空白字符的其中任意一个
.	小数点可以匹配除了换行符（\n）以外的任意一个字符

举例1：表达式 "\d\d"，在匹配 "abc123" 时，匹配的结果是：成功；匹配到的内容是："12"；匹配到的位置是：开始于3，结束于5。

举例2：表达式 "a.\d"，在匹配 "aaa100" 时，匹配的结果是：成功；匹配到的内容是："aa1"；匹配到的位置是：开始于1，结束于4。

其他不常用的表达式

\b	匹配一个字边界，即字与空格间的位置。例如，"er\b"匹配"never"中的"er"，但不匹配"verb"中的"er"。
\B	非字边界匹配。"er\B"匹配"verb"中的"er"，但不匹配"never"中的"er"。
\cx	匹配 x 指示的控制字符。例如，\cM 匹配 Control-M 或回车符。x 的值必须在 A-Z 或 a-z 之间。如果不是这样，则假定 c 就是"c"字符本身。
\d	数字字符匹配。等效于 [0-9]。
\D	非数字字符匹配。等效于 [^0-9]。
\f	换页符匹配。等效于 \x0c 和 \cL。
\n	换行符匹配。等效于 \x0a 和 \cJ。
\r	匹配一个回车符。等效于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。
\S	匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效。
\t	制表符匹配。与 \x09 和 \cI 等效。
\v	垂直制表符匹配。与 \x0b 和 \cK 等效。
\w	匹配任何字类字符，包括下划线。与"[A-Za-z0-9_]"等效。
\W	与任何非单词字符匹配。与"[^A-Za-z0-9_]"等效。
\xn	匹配 n，此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如，"\x41"匹配"A"。"\x041"与"\x04"&"1"等效。允许在正则表达式中使用 ASCII 代码。
\num	匹配 num，此处的 num 是一个正整数。到捕获匹配的反向引用。例如，"(.)\1"匹配两个连续的相同字符。
\n	标识一个八进制转义码或反向引用。如果 \n 前面至少有 n 个捕获子表达式，那么 n 是反向引用。否则，如果 n 是八进制数 (0-7)，那么 n 是八进制转义码。
\nm	标识一个八进制转义码或反向引用。如果 \nm 前面至少有 nm 个捕获子表达式，那么 nm 是反向引用。如果 \nm前面至少有 n 个捕获，则 n 是反向引用，后面跟有字符 m。如果两种前面的情况都不存在，则 \nm 匹配八进制值 nm，其中 n 和 m 是八进制数字 (0-7)。
\nml	当 n 是八进制数 (0-3)，m 和 l 是八进制数 (0-7) 时，匹配八进制转义码 nml。
\un	匹配 n，其中 n 是以四位十六进制数表示的 Unicode 字符。例如，\u00A9 匹配版权符号 (©)。

1.4 自定义能够匹配 '多种字符' 的表达式

使用方括号 [ ] 包含一系列字符，能够匹配其中任意一个字符。用 [^ ] 包含一系列字符，则能够匹配其中字符之外的任意一个字符。同样的道理，虽然可以匹配其中任意一个，但是只能是一个，不是多个。

表达式	可匹配
[ab5@]	匹配 "a" 或 "b" 或 "5" 或 "@"
[^abc]	匹配 "a","b","c" 之外的任意一个字符
[f-k]	匹配 "f"~"k" 之间的任意一个字母
[^A-F0-3]	匹配 "A"~"F","0"~"3" 之外的任意一个字符

举例1：表达式 "[bcd][bcd]" 匹配 "abc123" 时，匹配的结果是：成功；匹配到的内容是："bc"；匹配到的位置是：开始于1，结束于3。

举例2：表达式 "[^abc]" 匹配 "abc123" 时，匹配的结果是：成功；匹配到的内容是："1"；匹配到的位置是：开始于3，结束于4。

1.5 修饰匹配次数的特殊符号

前面章节中讲到的表达式，无论是只能匹配一种字符的表达式，还是可以匹配多种字符其中任意一个的表达式，都只能匹配一次。如果使用表达式再加上修饰匹配次数的特殊符号，那么不用重复书写表达式就可以重复匹配。

使用方法是："次数修饰"放在"被修饰的表达式"后边。比如："[bcd][bcd]" 可以写成 "[bcd]{2}"。

表达式	作用
{n}	表达式重复n次，比如："\w{2}" 相当于 "\w\w"；"a{5}" 相当于 "aaaaa"
{m,n}	表达式至少重复m次，最多重复n次，比如："ba{1,3}"可以匹配 "ba"或"baa"或"baaa"
{m,}	表达式至少重复m次，比如："\w\d{2,}"可以匹配 "a12","_456","M12344"...
?	匹配表达式0次或者1次，相当于 {0,1}，比如："a[cd]?"可以匹配 "a","ac","ad"
+	表达式至少出现1次，相当于 {1,}，比如："a+b"可以匹配 "ab","aab","aaab"...
*	表达式不出现或出现任意次，相当于 {0,}，比如："\^*b"可以匹配 "b","^^^b"...

举例1：表达式 "\d+\.?\d*" 在匹配 "It costs $12.5" 时，匹配的结果是：成功；匹配到的内容是："12.5"；匹配到的位置是：开始于10，结束于14。

举例2：表达式 "go{2,8}gle" 在匹配 "Ads by goooooogle" 时，匹配的结果是：成功；匹配到的内容是："goooooogle"；匹配到的位置是：开始于7，结束于17。

1.6 其他一些代表抽象意义的特殊符号

一些符号在表达式中代表抽象的特殊意义：

表达式	作用
^	与字符串开始的地方匹配，不匹配任何字符
$	与字符串结束的地方匹配，不匹配任何字符
\b	匹配一个单词边界，也就是单词和空格之间的位置，不匹配任何字符

     进一步的文字说明仍然比较抽象，因此，举例帮助大家理解。

    举例1：表达式 "^aaa" 在匹配 "xxx aaa xxx" 时，匹配结果是：失败。因为 "^" 要求与字符串开始的地方匹配，因此，只有当 "aaa" 位于字符串的开头的时候，"^aaa" 才能匹配，比如："aaa xxx xxx"。

    举例2：表达式 "aaa$" 在匹配 "xxx aaa xxx" 时，匹配结果是：失败。因为 "$" 要求与字符串结束的地方匹配，因此，只有当 "aaa" 位于字符串的结尾的时候，"aaa$" 才能匹配，比如："xxx xxx aaa"。

    举例3：表达式 ".\b." 在匹配 "@@@abc" 时，匹配结果是：成功；匹配到的内容是："@a"；匹配到的位置是：开始于2，结束于4。
     进一步说明："\b" 与 "^" 和 "$" 类似，本身不匹配任何字符，但是它要求它在匹配结果中所处位置的左右两边，其中一边是 "\w" 范围，另一边是非"\w" 的范围。

    举例4：表达式 "\bend\b" 在匹配 "weekend,endfor,end" 时，匹配结果是：成功；匹配到的内容是："end"；匹配到的位置是：开始于15，结束于18。

一些符号可以影响表达式内部的子表达式之间的关系：

表达式	作用
\|	左右两边表达式之间 "或" 关系，匹配左边或者右边
( )	(1). 在被修饰匹配次数的时候，括号中的表达式可以作为整体被修饰 (2). 取匹配结果的时候，括号中的表达式匹配到的内容可以被单独得到

    举例5：表达式 "Tom|Jack" 在匹配字符串 "I'm Tom, he is Jack" 时，匹配结果是：成功；匹配到的内容是："Tom"；匹配到的位置是：开始于4，结束于7。匹配下一个时，匹配结果是：成功；匹配到的内容是："Jack"；匹配到的位置时：开始于15，结束于19。

    举例6：表达式 "(go\s*)+" 在匹配 "Let's go go go!" 时，匹配结果是：成功；匹配到内容是："go go go"；匹配到的位置是：开始于6，结束于14。

    举例7：表达式 "￥(\d+\.?\d*)" 在匹配 "＄10.9,￥20.5" 时，匹配的结果是：成功；匹配到的内容是："￥20.5"；匹配到的位置是：开始于6，结束于10。单独获取括号范围匹配到的内容是："20.5"。

2. 正则表达式中的一些高级规则

2.1 匹配次数中的贪婪与非贪婪

在使用修饰匹配次数的特殊符号时，有几种表示方法可以使同一个表达式能够匹配不同的次数，比如："{m,n}", "{m,}", "?", "*", "+"，具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中，总是尽可能多的匹配。比如，针对文本 "dxxxdxxxd"，举例如下：

表达式	匹配结果
(d)(\w+)	"\w+" 将匹配第一个 "d" 之后的所有字符 "xxxdxxxd"
(d)(\w+)(d)	"\w+" 将匹配第一个 "d" 和最后一个 "d" 之间的所有字符 "xxxdxxx"。虽然 "\w+" 也能够匹配上最后一个 "d"，但是为了使整个表达式匹配成功，"\w+" 可以 "让出" 它本来能够匹配的最后一个 "d"

由此可见，"\w+" 在匹配的时候，总是尽可能多的匹配符合它规则的字符。虽然第二个举例中，它没有匹配最后一个 "d"，但那也是为了让整个表达式能够匹配成功。同理，带 "*" 和 "{m,n}" 的表达式都是尽可能地多匹配，带 "?" 的表达式在可匹配可不匹配的时候，也是尽可能的 "要匹配"。这种匹配原则就叫作 "贪婪" 模式。

非贪婪模式：

在修饰匹配次数的特殊符号后再加上一个 "?" 号，则可以使匹配次数不定的表达式尽可能少的匹配，使可匹配可不匹配的表达式，尽可能的 "不匹配"。这种匹配原则叫作 "非贪婪" 模式，也叫作 "勉强" 模式。如果少匹配就会导致整个表达式匹配失败的时候，与贪婪模式类似，非贪婪模式会最小限度的再匹配一些，以使整个表达式匹配成功。举例如下，针对文本 "dxxxdxxxd" 举例：

表达式	匹配结果
(d)(\w+?)	"\w+?" 将尽可能少的匹配第一个 "d" 之后的字符，结果是："\w+?" 只匹配了一个 "x"
(d)(\w+?)(d)	为了让整个表达式匹配成功，"\w+?" 不得不匹配 "xxx" 才可以让后边的 "d" 匹配，从而使整个表达式匹配成功。因此，结果是："\w+?" 匹配 "xxx"

更多的情况，举例如下：

 举例1：表达式 "<td>(.*)</td>" 与字符串 "<td>aa</td> <td>bb</td>" 匹配时，匹配的结果是：成功；匹配到的内容是 "<td>aa</td> <td>bb</td>" 整个字符串，表达式中的 "</td>" 将与字符串中最后一个 "</td>" 匹配。

 举例2：相比之下，表达式 "<td>(.*?)</td>" 匹配举例1中同样的字符串时，将只得到 "<td>aa</td>"，再次匹配下一个时，可以得到第二个 "<td>bb</td>"。

2.2 反向引用 \1, \2...

表达式在匹配时，表达式引擎会将小括号 "( )" 包含的表达式所匹配到的字符串记录下来。在获取匹配结果的时候，小括号包含的表达式所匹配到的字符串可以单独获取。这一点，在前面的举例中，已经多次展示了。在实际应用场合中，当用某种边界来查找，而所要获取的内容又不包含边界时，必须使用小括号来指定所要的范围。比如前面的 "<td>(.*?)</td>"。

其实，"小括号包含的表达式所匹配到的字符串" 不仅是在匹配结束后才可以使用，在匹配过程中也可以使用。表达式后边的部分，可以引用前面 "括号内的子匹配已经匹配到的字符串"。引用方法是 "\" 加上一个数字。"\1" 引用第1对括号内匹配到的字符串，"\2" 引用第2对括号内匹配到的字符串……以此类推，如果一对括号内包含另一对括号，则外层的括号先排序号。换句话说，哪一对的左括号 "(" 在前，那这一对就先排序号。

     举例如下：

    举例1：表达式 "('|")(.*?)(\1)" 在匹配 " 'Hello', "World" " 时，匹配结果是：成功；匹配到的内容是：" 'Hello' "。再次匹配下一个时，可以匹配到 " "World" "。

    举例2：表达式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 时，匹配结果是：成功；匹配到的内容是 "ccccc"。再次匹配下一个时，将得到 999999999。这个表达式要求 "\w" 范围的字符至少重复5次，注意与 "\w{5,}" 之间的区别。

举例3：表达式 "<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>" 在匹配 "<td id='td1' style="bgcolor:white"></td>" 时，匹配结果是成功。如果 "<td>" 与 "</td>" 不配对，则会匹配失败；如果改成其他配对，也可以匹配成功。

其他正则类的方法

Matcher 类的方法

索引方法

索引方法提供了有用的索引值，精确表明输入字符串中在哪能找到匹配：

序号	方法及说明
1	public int start() 返回以前匹配的初始索引。
2	public int start(int group) 返回在以前的匹配操作期间，由给定组所捕获的子序列的初始索引
3	public int end() 返回最后匹配字符之后的偏移量。
4	public int end(int group) 返回在以前的匹配操作期间，由给定组所捕获子序列的最后字符之后的偏移量。

研究方法

研究方法用来检查输入字符串并返回一个布尔值，表示是否找到该模式：

序号	方法及说明
1	public boolean lookingAt() 尝试将从区域开头开始的输入序列与该模式匹配。
2	public boolean find() 尝试查找与该模式匹配的输入序列的下一个子序列。
3	public boolean find(int start）重置此匹配器，然后尝试查找匹配该模式、从指定索引开始的输入序列的下一个子序列。
4	public boolean matches() 尝试将整个区域与模式匹配。

替换方法

替换方法是替换输入字符串里文本的方法：

序号	方法及说明
1	public Matcher appendReplacement(StringBuffer sb, String replacement) 实现非终端添加和替换步骤。
2	public StringBuffer appendTail(StringBuffer sb) 实现终端添加和替换步骤。
3	public String replaceAll(String replacement) 替换模式与给定替换字符串相匹配的输入序列的每个子序列。
4	public String replaceFirst(String replacement) 替换模式与给定替换字符串匹配的输入序列的第一个子序列。
5	public static String quoteReplacement(String s) 返回指定字符串的字面替换字符串。这个方法返回一个字符串，就像传递给Matcher类的appendReplacement 方法一个字面字符串一样工作。

start 和 end 方法

下面是一个对单词 "cat" 出现在输入字符串中出现次数进行计数的例子：

RegexMatches.java 文件代码：

 
   import 
     
   java 
   . 
   util 
   . 
   regex 
   . 
   Matcher 
   ; 
   import 
     
   java 
   . 
   util 
   . 
   regex 
   . 
   Pattern 
   ;  
   public 
     
   class 
     
   RegexMatches 
    
   { 
     
   private 
     
   static 
     
   final 
     
   String 
     
   REGEX 
    =  
   " 
   \\ 
   bcat 
   \\ 
   b 
   " 
   ;  
   private 
     
   static 
     
   final 
     
   String 
     
   INPUT 
    =  
   " 
   cat cat cat cattie cat 
   " 
   ;  
   public 
     
   static 
     
   void 
     
   main 
   ( 
     
   String 
     
   args 
   [ 
   ] 
     
   ) 
   { 
     
   Pattern 
     
   p 
    =  
   Pattern 
   . 
   compile 
   ( 
   REGEX 
   ) 
   ;  
   Matcher 
     
   m 
    =  
   p 
   . 
   matcher 
   ( 
   INPUT 
   ) 
   ;  
   // 
    获取 matcher 对象 
    
     
   int 
     
   count 
    =  
   0 
   ;  
   while 
   ( 
   m 
   . 
   find 
   ( 
   ) 
   ) 
     
   { 
     
   count 
   ++;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   Match number  
   " 
   + 
   count 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   start():  
   " 
   + 
   m 
   . 
   start 
   ( 
   ) 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   end():  
   " 
   + 
   m 
   . 
   end 
   ( 
   ) 
   ) 
   ;  
   } 
     
   } 
    
   } 
  

以上实例编译运行结果如下：

Match number 1
start(): 0
end(): 3
Match number 2
start(): 4
end(): 7
Match number 3
start(): 8
end(): 11
Match number 4
start(): 19
end(): 22

可以看到这个例子是使用单词边界，以确保字母 "c" "a" "t" 并非仅是一个较长的词的子串。它也提供了一些关于输入字符串中匹配发生位置的有用信息。

Start 方法返回在以前的匹配操作期间，由给定组所捕获的子序列的初始索引，end 方法最后一个匹配字符的索引加 1。

matches 和 lookingAt 方法

matches 和 lookingAt 方法都用来尝试匹配一个输入序列模式。它们的不同是 matches 要求整个序列都匹配，而lookingAt 不要求。

lookingAt 方法虽然不需要整句都匹配，但是需要从第一个字符开始匹配。

这两个方法经常在输入字符串的开始使用。

我们通过下面这个例子，来解释这个功能：

RegexMatches.java 文件代码：

 
   import 
     
   java 
   . 
   util 
   . 
   regex 
   . 
   Matcher 
   ; 
   import 
     
   java 
   . 
   util 
   . 
   regex 
   . 
   Pattern 
   ;  
   public 
     
   class 
     
   RegexMatches 
    
   { 
     
   private 
     
   static 
     
   final 
     
   String 
     
   REGEX 
    =  
   " 
   foo 
   " 
   ;  
   private 
     
   static 
     
   final 
     
   String 
     
   INPUT 
    =  
   " 
   fooooooooooooooooo 
   " 
   ;  
   private 
     
   static 
     
   final 
     
   String 
     
   INPUT2 
    =  
   " 
   ooooofoooooooooooo 
   " 
   ;  
   private 
     
   static 
     
   Pattern 
     
   pattern 
   ;  
   private 
     
   static 
     
   Matcher 
     
   matcher 
   ;  
   private 
     
   static 
     
   Matcher 
     
   matcher2 
   ;  
   public 
     
   static 
     
   void 
     
   main 
   ( 
     
   String 
     
   args 
   [ 
   ] 
     
   ) 
   { 
     
   pattern 
    =  
   Pattern 
   . 
   compile 
   ( 
   REGEX 
   ) 
   ;  
   matcher 
    =  
   pattern 
   . 
   matcher 
   ( 
   INPUT 
   ) 
   ;  
   matcher2 
    =  
   pattern 
   . 
   matcher 
   ( 
   INPUT2 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   Current REGEX is:  
   " 
   + 
   REGEX 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   Current INPUT is:  
   " 
   + 
   INPUT 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   Current INPUT2 is:  
   " 
   + 
   INPUT2 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   lookingAt():  
   " 
   + 
   matcher 
   . 
   lookingAt 
   ( 
   ) 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   matches():  
   " 
   + 
   matcher 
   . 
   matches 
   ( 
   ) 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   " 
   lookingAt():  
   " 
   + 
   matcher2 
   . 
   lookingAt 
   ( 
   ) 
   ) 
   ;  
   } 
    
   } 
  

以上实例编译运行结果如下：

Current REGEX is: foo
Current INPUT is: fooooooooooooooooo
Current INPUT2 is: ooooofoooooooooooo
lookingAt(): true
matches(): false
lookingAt(): false

replaceFirst 和 replaceAll 方法

replaceFirst 和 replaceAll 方法用来替换匹配正则表达式的文本。不同的是，replaceFirst 替换首次匹配，replaceAll 替换所有匹配。

下面的例子来解释这个功能：

RegexMatches.java 文件代码：

 
   import 
     
   java 
   . 
   util 
   . 
   regex 
   . 
   Matcher 
   ; 
   import 
     
   java 
   . 
   util 
   . 
   regex 
   . 
   Pattern 
   ;  
   public 
     
   class 
     
   RegexMatches 
    
   { 
     
   private 
     
   static 
     
   String 
     
   REGEX 
    =  
   " 
   dog 
   " 
   ;  
   private 
     
   static 
     
   String 
     
   INPUT 
    =  
   " 
   The dog says meow.  
   " 
    +  
   " 
   All dogs say meow. 
   " 
   ;  
   private 
     
   static 
     
   String 
     
   REPLACE 
    =  
   " 
   cat 
   " 
   ;  
   public 
     
   static 
     
   void 
     
   main 
   ( 
   String 
   [ 
   ] 
     
   args 
   ) 
     
   { 
     
   Pattern 
     
   p 
    =  
   Pattern 
   . 
   compile 
   ( 
   REGEX 
   ) 
   ;  
   // 
    get a matcher object 
    
     
   Matcher 
     
   m 
    =  
   p 
   . 
   matcher 
   ( 
   INPUT 
   ) 
   ;  
   INPUT 
    =  
   m 
   . 
   replaceAll 
   ( 
   REPLACE 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   INPUT 
   ) 
   ;  
   } 
    
   } 
  

以上实例编译运行结果如下：

The cat says meow. All cats say meow.

appendReplacement 和 appendTail 方法

Matcher 类也提供了appendReplacement 和 appendTail 方法用于文本替换：

看下面的例子来解释这个功能：

RegexMatches.java 文件代码：

 
   import 
     
   java 
   . 
   util 
   . 
   regex 
   . 
   Matcher 
   ; 
   import 
     
   java 
   . 
   util 
   . 
   regex 
   . 
   Pattern 
   ;  
   public 
     
   class 
     
   RegexMatches 
    
   { 
     
   private 
     
   static 
     
   String 
     
   REGEX 
    =  
   " 
   a*b 
   " 
   ;  
   private 
     
   static 
     
   String 
     
   INPUT 
    =  
   " 
   aabfooaabfooabfoob 
   " 
   ;  
   private 
     
   static 
     
   String 
     
   REPLACE 
    =  
   " 
   - 
   " 
   ;  
   public 
     
   static 
     
   void 
     
   main 
   ( 
   String 
   [ 
   ] 
     
   args 
   ) 
     
   { 
     
   Pattern 
     
   p 
    =  
   Pattern 
   . 
   compile 
   ( 
   REGEX 
   ) 
   ;  
   // 
    获取 matcher 对象 
    
     
   Matcher 
     
   m 
    =  
   p 
   . 
   matcher 
   ( 
   INPUT 
   ) 
   ;  
   StringBuffer 
     
   sb 
    =  
   new 
     
   StringBuffer 
   ( 
   ) 
   ;  
   while 
   ( 
   m 
   . 
   find 
   ( 
   ) 
   ) 
   { 
     
   m 
   . 
   appendReplacement 
   ( 
   sb 
   , 
   REPLACE 
   ) 
   ;  
   } 
     
   m 
   . 
   appendTail 
   ( 
   sb 
   ) 
   ;  
   System 
   . 
   out 
   . 
   println 
   ( 
   sb 
   . 
   toString 
   ( 
   ) 
   ) 
   ;  
   } 
    
   } 
  

以上实例编译运行结果如下：

-foo-foo-foo-

PatternSyntaxException 类的方法

PatternSyntaxException 是一个非强制异常类，它指示一个正则表达式模式中的语法错误。

PatternSyntaxException 类提供了下面的方法来帮助我们查看发生了什么错误。

序号	方法及说明
1	public String getDescription() 获取错误的描述。
2	public int getIndex() 获取错误的索引。
3	public String getPattern() 获取错误的正则表达式模式。
4	public String getMessage() 返回多行字符串，包含语法错误及其索引的描述、错误的正则表达式模式和模式中错误索引的可视化指示。