C++string中文的匹配问题

桃花仙人~

已于 2022-09-09 12:57:57 修改

阅读量3k

点赞数 4

分类专栏：字符串文章标签： c++ c语言

于 2021-09-16 19:22:59 首次发布

本文链接：https://blog.csdn.net/xxxxian666/article/details/120335279

版权

字符串专栏收录该内容

2 篇文章 0 订阅

订阅专栏

问题引入

正常字符串匹配,全英文

string str = "abc";
if ((int)str.find("bc") > 0)
    printf("okay\n"); // 匹配成功
else
    printf("none\n"); // 匹配失败
// 输出 okay

如果其中包含中文

string str = "人类";
if ((int)str.find("死") > 0)
    printf("okay\n"); // 匹配成功
else
    printf("none\n"); // 匹配失败
// 输出 okay

问题: 为什么人类会和死匹配
原因:Windows中，中文（简体）通常使用GBK来编码的。一个中文占两个字节
我们来看看“人类”是怎么编码的：

printf("%X ", "人类"[0]);
printf("%X ", "人类"[1]);
printf("%X ", "人类"[2]);
printf("%X ", "人类"[3]);
// FFFFFFC8 FFFFFFCB FFFFFFC0 FFFFFFE0

因为中文只占两个字节,“人类”的GBK编码是C8CB C0E0
前面的F是扩展,原因看这里

printf("%X ", "死"[0]);
printf("%X ", "死"[1]);
// FFFFFFCB FFFFFFC0

而“死”的编码是CBC0！
这样一来，使用string的find函数进行搜索时，”人类”能够匹配”死”的问题就瞬间搞懂了。

问题求解

那么，怎么解决呢？

经查询资料：
GBK分两段：ASCII段和中文段。ASCII段使用单字节，和ASCII编码保持一致；中文（及特殊符号）段使用双字节编码。在双字节段中，第一字节的范围是81–FE（也就是不含80和FF），第二字节的一部分领域在40–7E，其他领域在80–FE2。
也就是说，在GBK编码中，中文有两个字节，首字节范围81_{FE，尾字节范围40}7E。
这么说来，判断一个字符（或者中文的一个字）是否为中文，只要判断其是否大于0x80即可。在判断其大于时，获取两个字节，同时向下跳一字节，进行后续判断；如果不大于，则为ASCII字符，获取一个字节。
根据以上所述，我们利用union将字符化为int型。
代码如下

std::vector<int> stringToVecInt(const std::string &str)
{
    union {
        char c[2];
        int  i;
    } convert;

    // 段位清零
    convert.i = 0;

    std::vector<int> vec;

    for (unsigned i = 0; i < str.length(); i++) {
        // GBK编码首字符大于0x80
        if ((unsigned)str[i] > 0x80) {
            // 利用union进行转化，注意是大端序
            convert.c[1] = str[i];
            convert.c[0] = str[i + 1];
            vec.push_back(convert.i);
            i++;
        } else
            // 小于0x80，为ASCII编码，一个字节
            vec.push_back(str[i]);
    }
    return vec;
}

我们使用里的search函数，进行子串的搜索。

bool include(const std::string &str, const std::string &msg)
{
    auto sour = stringToVecInt(str);
    auto find = stringToVecInt(msg);
    return std::search(sour.begin(), sour.end(), find.begin(), find.end()) != sour.end();
}

测试下效果：

if (include("人类","死"))
    printf("okay\n"); // 匹配成功
else
    printf("none\n"); // 匹配失败
// none

代码用了union即为联合，它是一种特殊的类。通过关键字union进行定义，一个union可以有多个数据成员。
类中的成员共同占用一块内存,当赋值其中一个成员的值时,会覆盖内存(按照内存空间覆盖)

convert.c[1] = str[i];
convert.c[0] = str[i + 1];
vec.push_back(convert.i);

该文定义的union convert 占中四个字节(因为最大的int占用四个字节)
c[0],c[1]各占一个字节,给他们赋值之后,相当于 i 也有了值,实现将中文转为数字

中文匹配的解释
 union的解释

桃花仙人~

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
C++string中文的匹配问题

问题引入正常字符串匹配,全英文string str = "abc";if ((int)str.find("bc") > 0) printf("okay\n"); // 匹配成功else printf("none\n"); // 匹配失败// 输出 okay如果其中包含中文string str = "人类";if ((int)str.find("死") > 0) printf("okay\n"); // 匹配成功else printf("none
复制链接

扫一扫