常用编码说明-GBK&BIG5&GB18030

本文详细介绍了汉字编码标准GBK、BIG5和GB18030。GBK是中国国家标准,兼容GB2312并扩展了更多字符。BIG5是台湾地区的业界标准,主要用于繁体中文。GB18030则向下兼容GBK和GB2312,收录了Unicode中的大量字符,包括少数民族字符和韩文字符。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2.5.2 GBK
2.5.2.1 GBK介绍
GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan11)中“扩”字的声母。GBK 来自中国国家标准代码GB 13000.1-93。GBK 编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了Unicode 基本多文种平面中的所有CJK汉字。同 GB2312一样,GBK也支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。 GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。
2.5.2.2 GBK编码结构
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,高字节范围是0X81-0XFE,低字节范围是0X40-0X7E和0X80-0XFE,不包括低字节是0X7F的组合。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。
2.5.3 BIG5
2.5.3.1 BIG5介绍
Big5码的产生,是因为当时个人电脑没有共通的内码,导致厂商推出的中文应用软件无法推广,并且与IBM 5550、王安码等内码,彼此不能兼容;另一方面,台湾当时尚未推出中文编码标准。在这样的时空背景下,为了使台湾早日进入信息时代,所采行的一个项目;同时,这个项目对于以台湾为核心的亚洲繁体汉字圈也产生了久远的影响。Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家/地区标准或官方标准,而只是业界标准。倚天中文系统、Windows繁体中文版等主要系统的字符集都是以Big5为基准,但厂商又各自增加不同的造字与造字区,派生成多种不同版本。
2.5.3.2 BIG5编码结构
BIG5编码是繁体中文字符集编码标准,共收录13060个中文字,其中有二字为重复编码:兀、兀”(A461及C94A)、“嗀、嗀”(DCD1及DDFC)。BIG5采用双字节编码,使用两个字节来表示一个字符,其编码范围:8140-FEFE,其中汉字编码范围:A440-F9DC。高位字节使用了0x81-0xFE,低位字节使用了0x40-0x7E,及0xA1-0xFE。8140-A0FE 保留给使用者自定义字符(造字区)A140-A3BF 标点符号、希腊字母及特殊符号。其中在A259-A261,收录了度量衡单位用字:兙兛兞兝兡兣嗧瓩糎。A3C0-A3FE 保留。此区没有开放作造字区用。A440-C67E 常用汉字,先按笔划再按部首排序。C6A1-F9DC 其它汉字。F9DD-F9FE 制表符。
2.5.4 GB18030
2.5.4.1 GB18030介绍
GB18030编码向下兼容GBK和GB2312,兼容的含义是不仅字符兼容,而且相同字符的编码也相同。GB18030收录了所有Unicode3.1中的字符,包括中国少数民族字符,GBK不支持的韩文字符等等,也可以说是世界大多民族的文字符号都被收录在内。
2.5.4.2 GB18030编码结构
GBK和GB2312都是双字节等宽编码,如果算上和ASCII兼容所支持的单字节,也可以理解为是单字节和双字节混合的变长编码。GB18030编码是变长编码,有单字节、双字节和四字节三种方式。
GB18030 的单字节编码范围是0X00-0X7F,完全等同与ASCII;双字节编码的范围和GBK相同,高字节是0X81-0XFE,低字节的编码范围是0X40 -0X7E和0X80-0XFE;四字节编码中第一、三字节的编码范围是0X81-0XFE,二、四字节是 0X30-0X39。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值