深入理解java核心卷轴---编码utf-8

最新推荐文章于 2021-02-13 02:35:37 发布

天涯蓝药师

最新推荐文章于 2021-02-13 02:35:37 发布

阅读量528

点赞数

分类专栏： java-SE学习笔记文章标签：编码问题

本文链接：https://blog.csdn.net/yxs9527/article/details/50499575

版权

java-SE学习笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

今日看到代码点与代码单元牵涉到编码问题始终无法理解于是花了一个下午算是有点眉目了，总结如下

首先来了解下编码问题

1.ASCII 码

从ASCII说起,当年美国为了统一编码用了一套ASCII编码，用8位来表示，其中由于当时所有的英文字母和相关的符号一起也之有128个。但是8位的2进制是可以表示256种不同的状态的。于是规定最前面的为0只有后面的7位就够了。

2.非ASCII码

由用剩下的另外128个位被各国随便使用，导致无法得到统一于是得到了非ACSII码

3.Unicode编码

由於编码越来越多使得ASCII严重不够使用，于是出现了Unicode编码，但是这只是指明了一种编码方式没有说明存储方式就和GB2312一样的，Unicode是兼容ASCII的基础上进行的扩展，只是把全世界大多数的不同语言的文字对应了相关的数字而且用16进制来表示。

Unicode的问题

因为Unicode仅仅指明了编码的对应关系但是没有指明编码存储的方式，比如某一字符对应的数字的十六进制为5这样的话仅仅用1个字节8位就可以轻松表示了

但是如果其他的FFFF这个十六进制表示的字符至少要2个字节16位来表示，这样就不好统一怎么存储

如果都用2个字节的话对于前面的一个字节就可以表示的而言是一个浪费

如果分为不同字节表示的话那么在解析2个字节的时候到底是看成一个字符还是两个字符呢，这也是一种问题于是就出现了UTF-8,UTF-16,UTF-32许多的表示Unicode编码存储问的解决方案。

4.UTF-8

首先要明白的一个道理是UTF-8,UTF-16,UTF-32都仅仅只是Unicode的存储方式,

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

下表总结了编码规则，字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式
(十六进制) | （二进制）
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表，解读UTF-8编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

下面，还是以汉字"严"为例，演示如何实现UTF-8编码。

已知"严"的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此"严"的UTF-8编码需要三个字节，即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，从"严"的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，"严"的UTF-8编码是"11100100 10111000 10100101"，转换成十六进制就是E4B8A5。

6. Unicode与UTF-8之间的转换

通过上一节的例子，可以看到"严"的Unicode码是4E25，UTF-8编码是E4B8A5，两者是不一样的。它们之间的转换可以通过程序实现。

在Windows平台下，有一个最简单的转化方法，就是使用内置的记事本小程序Notepad.exe。打开文件后，点击"文件"菜单中的"另存为"命令，会跳出一个对话框，在最底部有一个"编码"的下拉条。