匹配任意个【】后面的汉字的正则表达式

QWQ___qwq

已于 2023-08-23 10:50:07 修改

阅读量465

点赞数

分类专栏： XML 正则表达式文章标签：正则表达式

于 2023-08-21 14:18:47 首次发布

本文链接：https://blog.csdn.net/weixin_46585199/article/details/132407391

版权

XML 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

正则表达式

1 篇文章 0 订阅

订阅专栏

方法：

如果需要匹配的字符前面不止一个【】后面的汉字，可以使用以下正则表达式进行匹配：

String regex = "【[^】]+】([^【】]+)";

在这个正则表达式中，我使用了[^】]+来匹配除了】之外的任意字符，并且使用括号将其作为第一个分组进行捕获。接着使用([^【】]+)来匹配除了【和】之外的任意字符，并且将其作为第二个分组进行捕获。

以下是更新后的示例代码：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {
    public static void main(String[] args) {
        String input = "这是一段示例文本，【ABC】【AAA】放大镜，【123】【BBB】【cc】打工人，【XYZ】大学生。";
        String regex = "【[^】]+】([^【】]+)";

        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(input);

        while (matcher.find()) {
            String part = matcher.group(1);
            System.out.println(part);
        }
    }
}

运行上述代码将输出：

放大镜，
打工人，
大学生。

这样就可以正确提取出字符串中多个【】之后的汉字内容。

解释

当我们解析正则表达式【[^】]+】([^【】]+)时，可以分为以下几个部分：

【和】：匹配确切的字符"【“和”】“。
[^】]+：匹配除了”】“之外的任意字符，”+“表示匹配至少一个或多个。
】：匹配确切的字符”】“。
([^【】]+)：匹配除了”【“和”】“之外的任意字符，括号表示将匹配结果作为一个捕获组。
所以，这个正则表达式的含义是：匹配以”【“开头，紧接着至少一个非”】“字符，并且以”】“结尾，然后捕获后面的非”【“和”】"字符。

当我们在Java中使用这个正则表达式进行匹配时，会找出所有符合这个模式的子字符串，并且保存捕获组中的内容。在上述示例代码中，使用Matcher类的find()方法来查找下一个匹配项，然后使用group(1)方法获取捕获组中的内容。

因此，通过这段简洁的代码，我们可以提取出【】后面的汉字内容。

成果

阶段性成果，实现了在拼音之后的成功提取。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test1 {
    public static void main(String[] args) {
        String input="〖HT8.25,8.5SS〗〖JP5〗〖ZK(*2#〗〖HT8.5，8.75K〗〖CS%100,0,0,0〗阿鼻：梵语译音，意为“无间”，即痛苦没有间断的意思。“阿鼻地狱”为佛教传说中八大地狱里最下层、最痛苦的地狱。〖CS〗〖HT8.25,8.5SS〗《敦煌变文集·目连缘起》：“七日之间，母身将死，堕阿鼻地狱，受无间之余殃。”元·无名氏《来生债》四折：“若不是点化真言，险堕了阿鼻地狱。”柯灵《从〈秋瑾传〉说到〈赛金花〉》：“八国联军铁蹄下的故都，烧杀淫掠，如阿鼻地狱，尽人皆知。”〖HT8.5，8.75K〗〖CS%100,0,0,0〗也比喻无法摆脱、难以忍受的痛苦境地。〖CS〗〖HT8.25,8.5SS〗冯雪峰《上饶集中营·炼狱杂记》：“但也有少数意志薄弱的……逐步上当，终至堕入阿鼻地狱。”〖CS〗〖HT8.25,8.5SS";
        String regex = "〖([^〖〗]+)〗([^〖〗]+)";

        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(input);

        while (matcher.find()) {
            String prefix = matcher.group(1);
            String content = matcher.group(2);

            if (prefix.equals("HT8.25,8.5SS")) {
                content = "<para><emphasis role=\"italic\">" + content + "</emphasis></para>";
            } else {
                content = "<para>" + content + "</para>";
            }

            System.out.println(content);
        }
    }
}