GB18030与GBK、GB2312字节对照

这篇博客详细介绍了各种字符编码标准,包括ASCII、GB2312、BIG-5、GBK和GB18030的编码范围和特点。GB2312主要针对汉字,BIG-5适用于繁体中文,GBK和GB18030则进一步扩展了汉字编码,同时讨论了ISO/IEC2022标准及其在不同编码中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

字节对照
第一字节:
ASCII:00-7F
GB2312:A1-FE(实际A1-A9/B0-F7)
(A1-A9为符号,B0-F7为汉字)
(单字节编码同ASCII)
BIG-5:81-FE(实际A1-F9)
(81-A0/F9-FE为用户自定义使用)
(单字节编码同ASCII)
GBK:81-FE
(单字节编码同ASCII)
GB18030:81-FE
(单字节编码同ASCII)
(双字节编码同GBK)
(四字节编码实际81-84/90-E3)

第二字节:
GB2312:A1-FE
BIG-5:40-7E、A1-FE
GBK:40-FE(7F去除)
GB18030:30-39 、40-FE(7F去除)
(双字节编码同GBK)
(四字节编码30-39)

第三字节:
GB18030:81-FE

第四字节:
GB18030:30-39

附GBK编码空间
GBK/1:A1A1-A9FE,GB2312非汉字符号717个
GBK/2:B0A1-F7FE,GB2312汉字6763个
GBK/3:8140-A0FE,CJK汉字6080 个
GBK/4:AA40-FEA0,CJK汉字、增补汉字及《简化字总表》中未收入 GB 13000.1 的 52 个汉字,共8160个汉字
GBK/5:A840-A9A0,BIG5收入GB13000.1的非汉字符号、结构符和“○”,共166个符号
用户自定义区:
1区:AAA1-AFFE,码位 564 个。
2区:F8A1-FEFE,码位 658 个。
3区:A140-A7A0,码位 672 个。

ISO/IEC 2022
ISO 2022(ECMA-35)标准可用于兼容当时的7比特宽的通信协议/通信设备扩展ASCII码。由于7位编码需要避开ASCII的控制字符,128个ASCII字符去掉32个控制字符00-1FH,去掉空格20H,再去掉最后的DEL退格7FH,单个7位字节范围只剩21-7EH可用于编码,共94个图形字符。多个7位字节可构成94×94×94…的编码空间,既212121… -7E7E7E…的编码空间。
当在8比特协议或设备的情况下,字节最高位置1,单个8位字节范围为A1-FEH,相当于加了80H,多个8位字节仍然构成94×94×94…的编码空间,既A1A1A1…-FEFEFE…的编码空间。
GB2312-80就完全按照ISO/IEC 2022的本地化标准GB2311-80扩展ASCII,编码分为两个字节,每个字节可表示94个码位,94×94的编码空间,单个7位字节的范围是21-7EH。区位码为94个区和94个位,实际使用1-9区表示非汉字字符,16-87区表示汉字。区位码高低字节各转成16进制0101-5E5EH,高低字节各加上20H,得到2121-7E7EH,每个字节可避开使用7位编码时的ASCII控制字符,构成兼容当时7比特宽的通信协议/通信设备的交换码(国标码)。当在8比特一个字节下,字节最高位置一,相当于高低字节各加80H,构成计算机内实际表示的机内码A1A1-FEFEH,也相当于在区位码各字节加上A0H。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值