计算机字符编码： ASCII， Unicode， utf-8 ，GBK

最新推荐文章于 2021-06-16 19:47:06 发布

不做祖国的韭菜

最新推荐文章于 2021-06-16 19:47:06 发布

阅读量404

点赞数

分类专栏：网络文章标签：前端计算机基础编码

本文链接：https://blog.csdn.net/yuanyang08/article/details/83027366

版权

网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言：
最近项目中遇到了utf-8 和 gbk 转换的问题，突然对计算机中字符串的编码问题产生了兴趣，拜读了几篇文章，做了一下简单的总结

一 ASCII

我们知道，计算机的内部只认二进制 0，1的状态，通常8个二进制代表一个字节，这是计算机最小的存储单位，一个字节可以有 2^8 = 256 个状态。最开始，美国制定了一套具有128个状态的字符编码，这被称为ASCII码，这128个字符还包括了大小写和一些键盘的控制符号，比如空格 ASCII码为32 （00100000），这套ASCII 码基本适用了以英文为基础的国家计算机编码

二其他国家的编码方式

有了ASCII 码，以英文为主要语言的国家在使用计算机上已经没有问题，但是世界各地其他使用其他语言的国家确遇到了难题，他们的语言在ASCII 上没有，因此，为了让计算机保存他们的文字，他们决定有 ASCII 码剩余空闲的一位作为他们语言的编码体系，（ASCII 码为128个，而一个字节为8位，即最多可以容纳 256个字符，因此最高位在ASCII 码中统一规定为 0，其他国家利用的就是这一闲置的最高位）
然后，每个国家都用最高位来作为自己的编码体系，所以出现了不同国家之间编码一样，但是代表的符号不一样，无法统一，从而造成不同语言打开出现乱码现象。

三中国（GBK 系列）

由于中文汉字个数太多，仅仅用一个字节的长度已经无法容纳各种各自的汉字了，因此，中国采用两个字节来编码，无论中英文都是两个字符，这就是GBK 编码
（详细: 小于127号的还是继续使用，并且用2个大于127的字节表示一个中文字符，前面的一个字节（他称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的全角字符，而原来在127号以下的那些就叫半角字符了。中国人民看到这样很不错，于是就把这种汉字方案叫做 “GB2312“。GB2312 是对 ASCII 的中文扩展。）

四集大成者（Unicode）

既然语言如此多样，而各种编码规则又是乱成一锅，因此为了实现统一，国际标谁化组织废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码，这个编码成为unicode
unicode 编码规定保留之前的ASCII 的字符，并把所有的字符都用两个字节去表示，这一规定虽然统一了编码的规范，但是出现的严重问题是大量的浪费存储的空间，计算机编程大部分都是英文字符，而英文字符使用一个字节就足够表示了，unicode 编码规定所有的字符都表示成两个字节，即英文字符会在另一个字节中补0，大大浪费了空间。