认识Unicode和UTF-8,UTF-16,UTF-32

最新推荐文章于 2022-03-15 19:26:26 发布

Sylviarrran

最新推荐文章于 2022-03-15 19:26:26 发布

阅读量180

点赞数

分类专栏： Java 文章标签： unicode

本文链接：https://blog.csdn.net/weixin_43986279/article/details/100930703

版权

Java 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一：Unicode的发展

在计算机的内部，每一个信息最终都是一个二进制的值，用0和1 =来表示信息。

在早期的编写代码的过程中，美国为了编写顺利，制定了一套字符编码，他们将英文字母和一些特殊符号和二进制中的0和1关联起来并做了统一规定，这种编码称为ASCll码。

虽然ASCII码很方便，但它一共只规定了128个字符的编码，对于英语来说，这128个是可以满足编写需求的，但是对于其他不使用英语的国家来说是很棘手的问题。所以，Unicode诞生了。Unicode将世界上的所有符号都收纳进去，给每一个符号都给予一个特定的编码，这样就解决了ASCll码带来的乱码问题。

在表示一个Unicode的字符时，通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。
例如：U+0041代表大写字母A

二：UTF-8与Unicode的关系

UTF-8是互联网上使用最广的一种Unicode的实现方式之一。
UTF-8 最大的一个特点，就是它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。而这个变化和Unicode的编号大小有关，编号小的使用字节就少，编号大的使用字节就大。

UTF-8的编码规则

对于单字节的符号，字节的第一位设为0，后面的7位为这个符号的Unicode码，因此对于英文字母，UTF-8编码和ASCII码是相同的。具体的表现形式为：0xxxxxxx（对应的十进制范围0-127）
对于n字节的符号（n>1）,第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10，剩下的没有提及的二进制位，全部为这个符号的Unicode码。
如果有多个字节，那么第一个字节从最高位开始，连续有几个比特位的值为 1，就使用几个字节编码，剩下的字节均以 10 开头。
具体的表现形式：
110xxxxx 10xxxxxx：双字节编码形式；（对应的十进制范围128-2047）
1110xxxx 10xxxxxx 10xxxxxx：三字节编码形式；（对应的十进制范围2048-65535）
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx：四字节编码形式。（对应的十进制范围65536以上）
例如Unicode编号为0x9A6C,其对应的二进制数为 1001 1010 0110 1100它所在的范围在三字节的范围之内，所以将二进制数填入至模板中，则得到UTF-8的代码：11101001 10101001 10101100（从右到左填充进去）

三：UTF-16与Unicode的联系

UTF-16 使用 2 个或者 4 个字节来存储

UTF-16的编码规则：

对于编号在U+0000到U+FFFF的字符（常用字符集），直接用两个字节表示。
编号在 U+10000到U+10FFFF之间的字符，需要用四个字节表示。

四:UTF-32与Unicode的联系

UTF-32 表示任何字符都用 4 字节，能够容纳所有的 Unicode 字符，可以直接对编码对应的符号进行转换
UTF-32是定长编码，所以索引比变长的要快，如果想访问一个字符串中的第 n 个字符，UTF-32 可以直接偏移 n 个整形距离。

Sylviarrran

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
认识Unicode和UTF-8,UTF-16,UTF-32

一：Unicode的发展在计算机的内部，每一个信息最终都是一个二进制的值，用0和1 =来表示信息。在早期的编写代码的过程中，美国为了编写顺利，制定了一套字符编码，他们将英文字母和一些特殊符号和二进制中的0和1关联起来并做了统一规定，这种编码称为ASCll码。虽然ASCII码很方便，但它一共只规定了128个字符的编码，对于英语来说，这128个是可以满足编写需求的，但是对于其他不使用英语的国家来...
复制链接

扫一扫