JAVA总结(四)：正则表达式匹配中文的三种方法

最新推荐文章于 2022-10-23 23:56:30 发布

蚁方阵

最新推荐文章于 2022-10-23 23:56:30 发布

阅读量5.1w

点赞数 6

分类专栏： java 文章标签： java 正则表达式中文字符匹配方法

本文链接：https://blog.csdn.net/yiifaa/article/details/77325432

版权

java 专栏收录该内容

75 篇文章 8 订阅

订阅专栏

在对安全日志信息的分析过程中，我们经常需要利用正则表达式提取重要的字段信息，而中文就成为正则表达式绕不过去的一道坎。

以“8个文件”作为测试字符串，依次做出匹配与字段提取操作。

方法一：区段匹配

众所周知，JAVA支持对Unicode字符的解析，请看清楚，是Unicode字符，不是UTF-8编码（只有在字节码中，才会转为UTF-8形式），于是我们可以使用Unicode指定字符的区间范围4E00到9FA5，如下：

String testTxt = "8个文件";
//  注意[\u4E00-\u9FA5]里面的斜杠字符，千万不可省略，不区分大小写
Pattern pat = Pattern.compile("^(\\d+)[\u4E00-\u9FA5]{3}$");
Matcher mat = pat.matcher(testTxt);
if(mat.matches()) {
    System.out.println(mat.group(1));
}

在[]中指定的都是字符，所以只需要一个斜杠字符，注意千万不可省略。

在上面的匹配过程中，中文字符只指定了一个范围，所以导致难以精确匹配，例如我需要匹配的是“目录”，而不是“文件”。

方法二：中文字符直接匹配

我们已经在字节码中证明过了，无论JAVA文件是GBK编码，还是UTF-8编码，在字节码的存储格式中，都会转为UTF-8编码，以三个字节进行存储，所以正则表达式的书写方式并不会受限与文件的编码（请注意，如果把正则表达式作为配置文件，然后作为字符串读入到内存中，那又该另当别论）。

所以，上面的正则表达式，又可以写为如下方式：

Pattern abs = Pattern.compile("(\\d+)个文件");

方式三：Unicode编码匹配

对JAVA而言，Unicode编码字符与中文字符是等价的，所以还可以写为如下形式：

Pattern abs = Pattern.compile("(\\d+)\u4e2a\u6587\u4ef6");

如何将字符转为Unicode编码，我们可以直接在命令行输入以下命令，然后输入中文即可：

#   以UI交互的方式启动命令
native2ascii

以文件的方式批量处理进行转换，如下：

#  encoding是指输入文件的编码方式，这里是指1.txt，千万要指定正确，否则出现错误的结果
native2ascii -encoding GBK 1.txt 2.txt
#   反转，这里的encoding是指输出文件的编码方式
native2ascii -reverse -encoding GBK 2.txt 3.txt