C++的正则表达式简介

一、基本概念

C++ 的正则表达式功能是 C++11 引入的标准库的一部分,提供了用于模式匹配和文本处理的强大工具。正则表达式(Regular Expression)是一种用于匹配和操作字符串的模式。它使用特定的语法规则来定义搜索模式,并可以用来查找、替换、分割和验证文本。

二、正则表达式的基本用法

1、头文件

#include <regex>

2、正则表达式对象

正则表达式对象由 std::regex 类表示。使用正则表达式字符串来构造std::regex对象。

#include <iostream>
#include <regex>
#include <string>

int main() {
    std::string pattern = R"(\d{3}-\d{2}-\d{4})"; // 正则表达式:匹配类似 "123-45-6789" 的格式
    std::regex re(pattern);

    std::string test_str = "My number is 123-45-6789";
    std::smatch matches;

    if (std::regex_search(test_str, matches, re)) {
        std::cout << "Match found: " << matches[0] << std::endl;
    } else {
        std::cout << "No match found." << std::endl;
    }

    return 0;
}
// 输出 “Match found: 123-45-6789”

3、正则表达式匹配

std::regex_match:检查整个字符串是否完全匹配正则表达式。

std::regex re("\\d{3}-\\d{2}-\\d{4}");
std::string test_str = "123-45-6789";

if (std::regex_match(test_str, re)) {
    std::cout << "Full match found." << std::endl;
} else {
    std::cout << "No match found." << std::endl;
}

std::regex_search:检查字符串中是否存在符合正则表达式的子字符串。

std::regex re("\\d{3}-\\d{2}-\\d{4}");
std::string test_str = "My number is 123-45-6789";

if (std::regex_search(test_str, re)) {
    std::cout << "Match found." << std::endl;
} else {
    std::cout << "No match found." << std::endl;
}

std::regex_replace:替换匹配正则表达式的部分。

std::regex re("\\d{3}-\\d{2}-\\d{4}");
std::string test_str = "My number is 123-45-6789";
std::string replaced = std::regex_replace(test_str, re, "XXX-XX-XXXX");

std::cout << replaced << std::endl; // 输出 "My number is XXX-XX-XXXX"

4、正则表达式语法

(1)基本字符和元字符

字符: 字母、数字和其他符号直接匹配对应字符。
点号 (.): 匹配任意单个字符(除了换行符)。

(2)字符类

[abc]:匹配 a、b 或 c。
[^abc]:匹配任何不是 a、b 或 c 的字符。
[0-9]:匹配任何数字。
[a-z]:匹配任何小写字母。

(3)预定义字符类

\d:匹配任何数字([0-9])。
\D:匹配任何非数字。
\w:匹配任何单词字符(字母、数字、下划线)。
\W:匹配任何非单词字符。
\s:匹配任何空白字符(空格、制表符、换行符)。
\S:匹配任何非空白字符。

(4)量词

*:匹配前面的子表达式零次或多次。
+:匹配前面的子表达式一次或多次。
?:匹配前面的子表达式零次或一次。
{n}:匹配前面的子表达式恰好 n 次。
{n,}:匹配前面的子表达式至少 n 次。
{n,m}:匹配前面的子表达式至少 n 次,但不超过 m 次。

(5)边界

^:匹配字符串的开始。
$:匹配字符串的结束。

(6)分组和捕获

(abc):匹配 abc,并将其捕获为一个分组。
(?:abc):匹配 abc,但不捕获它。
\1:引用第一个捕获分组。

5、错误处理

正则表达式中的错误通常会抛出 std::regex_error 异常。可以通过 std::regex_error 的成员函数 code() 获取错误码,成员函数what()获取错误相关的描述字符串。

#include <iostream>
#include <regex>

int main() {
    try {
        std::regex re("("); // 错误的正则表达式
    } catch (const std::regex_error& e) {
        std::cout << "Regex error: " << e.what() << std::endl;
    }

    return 0;
}

三、常见用例

验证输入: 正则表达式常用于验证用户输入是否符合指定的格式,如验证电子邮件地址、电话号码、邮政编码等。
查找与替换: 正则表达式非常适合在字符串中查找符合特定模式的子串,并进行替换操作。
文本处理: 在文本分析、数据清理等场景中,正则表达式可以帮助提取有用的信息或去除不必要的字符。

四、性能考虑

正则表达式功能强大,但复杂的模式可能会导致性能问题。在处理非常大的字符串或需要频繁匹配的场景中,应注意正则表达式的效率问题。对于简单的匹配,可以考虑使用更直接的字符串操作来替代。

  • 9
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值