关于标准中文字符集无法匹配部分生僻字的处理_存储unicode扩展字符集的生僻中文-CSDN博客

本文链接：https://blog.csdn.net/yiguoxiaohai/article/details/147273181

关于标准中文字符集无法匹配部分生僻字的处理

在处理标准中文字符集无法匹配部分生僻字的问题时，可以采取以下几种方法：

1. 使用 Unicode 编码

生僻字通常在 Unicode 的扩展字符集中（如 CJK 扩展 A、B、C 等）。确保你的系统或应用支持这些扩展字符集。

示例

const rareCharacter = '\u{20BB7}'; // 示例：𠮷（Unicode 扩展 B）
console.log(rareCharacter); // 输出：𠮷

const char = "𬎆";
console.log(char.codePointAt(0).toString(16).toUpperCase()); // 输出 "2C386"

注意：
- 使用 ES6 的 Unicode 转义（\u{}）可以正确处理扩展字符。
- 确保你的开发环境支持 Unicode 扩展字符。

2. 使用第三方库【开发常用】

可以使用一些支持生僻字的第三方库来处理字符匹配问题。例如：

示例：xregexp

XRegExp 是一个扩展正则表达式的库，支持 Unicode。

npm install xregexp

import XRegExp from 'xregexp';

// 匹配所有中文字符，包括生僻字
const chineseRegex = XRegExp('\\p{Script=Han}', 'u');
console.log(chineseRegex.test('𠮷')); // 输出：true
console.log(chineseRegex.test('普通')); // 输出：true

优势：
- 支持完整的 Unicode 匹配。
- 可以处理生僻字和其他特殊字符。

3. 使用字体支持

生僻字的显示依赖于字体支持。如果你的应用需要显示生僻字，确保使用支持扩展字符集的字体，例如：

思源黑体（Source Han Sans）
思源宋体（Source Han Serif）

示例：在 CSS 中指定字体

body {
  font-family: 'Source Han Sans', 'Microsoft YaHei', sans-serif;
}

4. 数据库存储与查询

如果需要在数据库中存储和查询生僻字，确保数据库的字符集设置为支持 Unicode，例如：

MySQL：使用 utf8mb4 字符集。
PostgreSQL：默认支持 Unicode。

示例：MySQL 设置

CREATE TABLE example (
  id INT PRIMARY KEY,
  rare_char VARCHAR(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci
);

5. 正则表达式扩展【开发常用】

如果需要匹配生僻字，可以扩展正则表达式的范围。例如，匹配 Unicode 的 CJK 扩展字符集：

示例一：使用正则表达式扩展

const chineseRegex = /[\u4E00-\u9FFF\u3400-\u4DBF\u{20000}-\u{2A6DF}\u{2A700}-\u{2B738}\u{2B740}-\u{2B81F}\u{2B820}-\u{2CEAF}\u{2CEB0}-\u{2EBEF}\u{30000}-\u{3134F}\uF900-\uFAFF\u{2F800}-\u{2FA1F}]/u;
const testStrings = [
  "汉",   // 基本汉字 ✔️
  "𬎆",   // 扩展 B 区 ✔️ (U+2C386)
  "𪚥",   // 扩展 C 区 ✔️ (U+2A6A5)
  "𫝀",   // 扩展 D 区 ✔️ (U+2B740)
  "𬺰",   // 扩展 E 区 ✔️ (U+2CEB0)
  "豈",   // 兼容汉字 ✔️ (U+F900)
  "灰"    // 扩展 G 区 ✔️ (U+30835)
];

testStrings.forEach(char => {
  console.log(`${char}: ${chineseRegex.test(char)}`);
});

示例二：使用 codePointAt 和 fromCodePoint

const isChineseCharacter = char => {
  const codePoint = char.codePointAt(0);
  return (
    (codePoint >= 0x4E00 && codePoint <= 0x9FFF) || // 基本汉字
    (codePoint >= 0x3400 && codePoint <= 0x4DBF) || // 扩展 A 区
    (codePoint >= 0x20000 && codePoint <= 0x2A6DF) || // 扩展 B 区
    (codePoint >= 0x2A700 && codePoint <= 0x2B73F) || // 扩展 C 区
    (codePoint >= 0x2B740 && codePoint <= 0x2B81F) || // 扩展 D 区
    (codePoint >= 0x2B820 && codePoint <= 0x2CEAF) || // 扩展 E 区
    (codePoint >= 0xF900 && codePoint <= 0xFAFF) || // 兼容汉字
    (codePoint >= 0x2F800 && codePoint <= 0x2FA1F) // 扩展 G 区
  );
};

const testChar = "𬎆";
console.log(isChineseCharacter(testChar)); // true

范围解释：

Unicode 区块	码点范围	是否覆盖
基本汉字（BMP）	U+4E00–U+9FFF	✔️
扩展 A 区	U+3400–U+4DBF	✔️
扩展 B 区	U+20000–U+2A6DF	✔️
扩展 C 区	U+2A700–U+2B73F	✔️
扩展 D 区	U+2B740–U+2B81F	✔️
扩展 E 区	U+2B820–U+2CEAF	✔️
扩展 F 区	U+2CEB0–U+2EBEF	✔️
扩展 G 区	U+30000–U+3134F	✔️
兼容汉字	U+F900–U+FAFF	✔️
兼容扩展	U+2F800–U+2FA1F	✔️

6. 输入法与编码支持

如果需要用户输入生僻字，确保输入法和编码支持。例如：

使用支持 Unicode 的输入法（如搜狗输入法、微软拼音）。
确保前端和后端的编码一致，避免字符丢失。

7. 降级处理

如果无法匹配或显示生僻字，可以提供降级方案，例如：

使用拼音或注音代替。
提供生僻字的图片或 SVG。

示例：降级为拼音

const rareCharacterMap = {
  '𠮷': 'ji',
  '𡃁': 'yan',
};

const text = '𠮷是一个生僻字';
const replacedText = text.replace(/./g, char => rareCharacterMap[char] || char);
console.log(replacedText); // 输出：ji是一个生僻字