09_MYBATIS_DAY02

最新推荐文章于 2022-11-08 17:26:27 发布

来自未来20年后的地球

最新推荐文章于 2022-11-08 17:26:27 发布

阅读量78

点赞数

分类专栏：字符编码文章标签： java

WWW.JZJdiqiu20.com

本文链接：https://blog.csdn.net/weixin_49245271/article/details/107207051

版权

字符编码专栏收录该内容

1 篇文章 0 订阅

订阅专栏

字符编码

计算机能够直接识别并处理的只有二进制数，这是由计算机的电子元器件的特性所导致的！

在二进制数中，每个0或每个1所占据的存储空间是1个二进制位（bit），由于1个二进制能够表达的信息含义只有2种，所以，1个二进制位不足以表达大量有意义的信息，通常使用字节（byte）来表示，每1个字节占8个二进制位，它是计算机中最基础的存储单位。

为了表示人类生活中使用到的字符（字母、数字、标点符号），早期就设计出了ASCII码表，它就记录了字符与二进制数的对应关系，例如110 0001就对应a，110 0010对应b……

由于ASCII码表记录都是1个字节能够表示的字符，除去最高位的符号位，只有7个二进制位，只能表示128种不同的意义，就无法表示中文！所以，就出现了其它的编码，例如GBK、GB2312等，当然，ASCII码表也不适用于其它不使用英语的国家和民族，例如日本、韩国等，也创建了对应的编码。

由于越来越多的国家和民族都普及了计算机，设计出来的编码的种类太多，为了统一支持统一使用，就出现了Unicode编码，这是一种全球化编码，记录了全世界各国家和民族所使用的各种字符！

使用Unicode编码时，大多情况下使用2个字节来描述1个字符，假设可以使用1010 0011 1010 0101可以表示“汉”（只是假设而已），可以使用1011 1111 0000 1010表示“字”，当需要将“汉字”这2个字符在网络传输，可能在网络上出现的二进制数据就是1010 0011 1010 0101 1011 1111 0000 1010 ，但是，当接收方接收到这个二进制的序列时，就无法明确：这到底是2个汉字，还是4个英文，甚至是1汉字2英文，或2英文1汉字，或1英文1汉字1英文……

为了保障传输过程不会出现以上假设的问题，就产生了UTF系列的编码！