UTF-8、GBK、GB2312、GB18030、ASCII编码基本关系

最新推荐文章于 2023-07-23 20:50:34 发布

lcfcfcf_

最新推荐文章于 2023-07-23 20:50:34 发布

阅读量3.3k

点赞数 1

分类专栏： QT开发笔记

原文链接：https://blog.csdn.net/Muscleheng/article/details/91533936

版权

QT开发笔记专栏收录该内容

20 篇文章 5 订阅

订阅专栏

本文详细介绍了字符编码的发展历程，包括ASCII、GB2312、GBK和GB18030之间的兼容关系。ASCII编码占用1字节，GB2312和GBK扩展了ASCII，分别用2字节编码汉字。GB18030为解决更多汉字需求，采用2字节和4字节混合编码，能表示超过7万个汉字，包括少数民族文字。UTF-8编码则根据字符类型使用1至4字节，对英文字符更节省空间，并且无需额外语言包支持。

摘要由CSDN通过智能技术生成

下面整理了各个编码之间的关系：
兼容性关系是GB18030兼容GBK，GBK兼容GB2312，GB2312兼容ASCII。所谓兼容，你可以简单理解为子集、不冲突的关系。例如GB2312编码的文件中可以出现ASCII字符，GBK编码的文件中可以出现GB2312和ASCII字符，GB18030编码的文件可以出现GBK、GB2312、ASCII字符。

UTF－8 编码是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。对于英文字符较多的论坛则用UTF－8 节省空间。另外，如果是外国人访问你的GBK网页，需要下载中文语言包支持。访问UTF-8编码的网页则不出现这问题。可以直接访问。

每种编码方式的特点：

【1】ASCII 每个字符占据1bytes，用二进制表示的话最高位必须为0（扩展的ASCII不在考虑范围内），因此ASCII只能表示128个字

【2】GB2312 最早一版的中文编码，每个字占据2bytes。由于要和ASCII兼容，那这2bytes最高位不可以为0了（否则和ASCII会有冲突）。在GB2312中收录了6763个汉字以及682个特殊符号，已经囊括了生活中最常用的所有汉字。

【3】GBK 由于GB2312只有6763个汉字，我汉语博大精深，只有6763个字怎么够？于是GBK中在保证不和GB2312、ASCII冲突（即兼容GB2312和ASCII）的前提下，也用每个字占据2bytes的方式又编码了许多汉字。经过GBK编码后，可以表示的汉字达到了20902个，另有984个汉语标点符号、部首等。值得注意的是这20902个汉字还包含了繁体字。

【4】GB18030 然而，GBK的两万多字也已经无法满足我们的需求了，还有更多可能你自己从来没见过的汉字需要编码。这时候显然只用2bytes表示一个字已经不够用了（2bytes最多只有65536种组合，然而为了和ASCII兼容，最高位不能为0就已经直接淘汰了一半的组合，只剩下3万多种组合无法满足全部汉字要求）。因此GB18030多出来的汉字使用4bytes编码。当然，为了兼容GBK，这个四字节的前两位显然不能与GBK冲突（实操中发现后两位也并没有和GBK冲突）。我国在2000年和2005年分别颁布的两次GB18030编码，其中2005年的是在2000年基础上进一步补充。至此，GB18030编码的中文文件已经有七万多个汉字了，甚至包含了少数民族文字。
————————————————
版权声明：本文为CSDN博主「Muscleheng」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Muscleheng/article/details/91533936

lcfcfcf_

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
UTF-8、GBK、GB2312、GB18030、ASCII编码基本关系

下面整理了各个编码之间的关系：兼容性关系是GB18030兼容GBK，GBK兼容GB2312，GB2312兼容ASCII。所谓兼容，你可以简单理解为子集、不冲突的关系。例如GB2312编码的文件中可以出现ASCII字符，GBK编码的文件中可以出现GB2312和ASCII字符，GB18030编码的文件可以出现GBK、GB2312、ASCII字符。UTF－8 编码是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。对于英文字符较多的论坛则用UTF－8 节省空
复制链接

扫一扫

专栏目录