汉字编码-区位码、国标码和内码发展和区别以及为什么要加2020H、8080H

最新推荐文章于 2024-09-09 00:54:53 发布

张Da夫

最新推荐文章于 2024-09-09 00:54:53 发布

阅读量2.6w

点赞数 30

分类专栏：字符编码文章标签：中文编码 GB2312 区位码国标码内码

本文链接：https://blog.csdn.net/zrf2112/article/details/50718684

版权

字符编码专栏收录该内容

4 篇文章

订阅专栏

当计算机传入中国并开始普及时，首要问题是解决中文编码问题，也就诞生出了GB2312、GBK等等编码方式。而其中的具体实现方式是什么？区位码是什么？国标码是什么？它们如何转换又为什么这么转换？

首先来看一看什么是区位码？什么是国标码？什么是内码？

区位码：

GB2312是一种中文的编码方式，具体是由区位码来实现的。GB2312将所有的汉字编入一个 94*94 的二维表, 行就是 "区"、列就是 "位", 其中的一个汉字由区、位唯一定位，其对应的区、位合并就为区位码。

譬如 "万" 字在 45 区 82 位, 所以 "万" 字的区位码是: 4582.

00-09 区(682个): 是符号、数字、英文字符...制表符等;

10-15 区: 空白, 留待扩展;

16-55 区(3755个): 常用汉字(也有叫一级汉字), 按拼音排序;

56-87 区(3008个): 非常用汉字(也有叫二级汉字), 这是按部首排序的;

88-94 区: 空白, 留待扩展.

国标码：

将 "区" 和 "位" 分别加上32(十六进制表示: 20H) 作为国标码

这样我们可以算出(45+32, 82+32):

"万" 字的国标码是 77114(4D72.H)

77 = 0111 0111

114 = 0111 0010

内码：

不过这还不能在计算机上使用，因为这样会和早已通用的 ASCII 码混淆(导致乱码)。譬如: 77 是 ASCII 的 "M", 114 是 ASCII 的 "r"。所以又有规定把每个字节的最高位都从 0 换成 1(这之前它们都是 0)，或者说把每个字节(区和位)都再加上 128(十六进制的: 80H)，从而得到 "机内码", 也就是前面所说的 "内码"。

77 + 128 = 205 = CD

114+ 128 = 242 = F2

打开记事本输入 "万" 字，保存(编码选择 ANSI); 然后用二进制编辑器(譬如:UltraEdit) 打开，会看到: CD F2, 这就是 "万" 字的内码!

总结一下：从区位码（国家标准定义） ---> 区和位分别 +32(20H) 得到国标码---> 再分别 +128 (80H)得到内码（与ACSII也不再混淆）; 区位码的区和位分别 +160 即可得到内码。用十六进制表示：区位码 + A0A0H = 内码。

为什么要加上2020H和8080H？

区位码、内码、国标码怎么转换非常简单，但是令人迷惑的是为什么要那么转换？这种转换不可能平白无故地那样转换！我搜索很多资料，找到最好的解释，总结如下

首先，注意到一点，GB2312虽说是对中文编码，但是里面有对26个英文字母和一些特殊符号的编码，按理说这和ASCII重合的部分应该无需设置，沿用ASCII中不就行了？但是当时在制定GB2312之前，就决定覆盖掉ASCII中符号和英文字母部分，所以将其中的英文字母和符号重新编入GB2312中。而对于ASCII中前32个控制字符则继续沿用。所以保留前32字符，就需要将汉字编码向后偏移32，十六进制20H，这也就是区位码要加上20H得到国标码，这就是GB2312的编码规范

而这样产生一个弊端，某些早期用ASCII码编码的英文文章无法打开，一打开就是乱码，也就是说应该要兼容早期ASCII码而不是覆盖它！为了解决这个问题，将字节的最高位设为1，因为ASCII中使用7位，最高位为0。这样就区分开了ASCII和GB2312。这也是为什么要加上8080H。

其实我们说国标码才是GB2312的规范编码，后来的内码是微软为了解决冲突问题而采用的方式，本质上是修改了GB2312的编码标准，而这种方法最后产生的编码最后就被一些教科书称为内码。