关于UNICODE、UTF-8、UTF-16、UTF-32一些事

最新推荐文章于 2021-08-12 10:37:30 发布

陆d

最新推荐文章于 2021-08-12 10:37:30 发布

阅读量308

点赞数

文章标签： Unicode UTF

本文链接：https://blog.csdn.net/weixin_45601956/article/details/101000952

版权

关于UNICODE、UTF-8、UTF-16、UTF-32一些事

一.Unicode是什么？

1.Unicode的前世今生
Unicode也可以叫做统一码、万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。
早期的计算机在设计时采用8个比特（bit）作为一个字节（byte），因为一个字节能表示的最大的整数是255（二进制11111111=十进制255），0 - 255被用来表示大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，但是随着计算机的发展，ASCII编码不能完全包含世界上的文字。这时Unicode就为了解决传统的字符编码方案的局限而产生了，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。
Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。Unicode是在1990年开始研发，1994年正式公布。目前的Unicode字符分为17组编排，0x0000 至 0x10FFFF，每组称为平面（Plane），而每平面拥有65536个码位，共1114112个。然而目前只用了少数平面。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

2.Unicode的缺点
对可以用ASCII表示的字符使用UNICODE并不高效，因为UNICODE比ASCII占用大一倍的空间，而对ASCII来说高字节的0对他毫无用处。为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即UTF（Unicode Transformation Format）。常见的UTF格式有：UTF-7, UTF-7.5, UTF-8,UTF-16, 以及 UTF-32。

二.UTF-8

1.UTF-8是什么

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，由Ken Thompson于1992年创建，现在已经标准化为RFC 3629。UTF-8用1到4个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言（如英文，日文，韩文）。

2.UTF-8编码规则

如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。UTF-8转换表表示如下：

在这里插入图片描述

实际表示ASCII字符的UNICODE字符，将会编码成1个字节，并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列，由n位连续的1加一位0组成, 首字节连续的1的个数表示字符编码所需的字节数。
Unicode转换为UTF-8时，可以将Unicode二进制从低位往高位取出二进制数字，每次取6位，如上述的二进制就可以分别取出为如下示例所示的格式，前面按格式填补，不足8位用0填补。
注：Unicode转换为UTF-8需要的字节数可以根据这个规则计算：如果Unicode小于0X80（Ascii字符），则转换后为1个字节。否则转换后的字节数为Unicode二进制位数+3再除以5。

三.UTF-16

1.UTF-16是什么？

UTF-16是Unicode字符编码五层次模型的第三层：字符编码表（Character Encoding Form，也称为 “storage format”）的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数（即码元）的序列，用于数据存储或传递。Unicode字符的码位，需要1个或者2个16位长的码元来表示，因此这是一个变长表示。

2.UTF-16与UCS-2的关系

UTF-16可看成是UCS-2的父集。在没有辅助平面字符（surrogate code points）前，UTF-16与UCS-2所指的是同一的意思。但当引入辅助平面字符后，就称为UTF-16了。现在若有软件声称自己支援UCS-2编码，那其实是暗指它不能支援在UTF-16中超过2bytes的字集。对于小于0x10000的UCS码，UTF-16编码就等于UCS码。

四.UTF-32

1.UTF-32是什么

UTF-32 (或 UCS-4)是一种将Unicode字符编码的协定，对每一个Unicode码位使用恰好32位元。其它的Unicode transformation formats则使用不定长度编码。因为UTF-32对每个字符都使用4字节，就空间而言，是非常没有效率的。虽然每一个码位使用固定长定的字节看似方便，它并不如其它Unicode编码使用得广泛。它更容易进行截断操作，但这方面并不比UTF-8及UTF-16强多少，因为后两者也只要在要截断的位置向前或向后至多搜索2-4个字符即可。

2.UTF-32与USC-4
UTF-32 原本是 UCS-4 的子集，但JTC1/SC2/WG2声明，所有未来对字符的指定都将会限制在BMP及其14个补充平面，并移除先前在 E0 到 FF 平面的 60 到 7F 群的私用空间。于是就现状而言，除了 UTF-32 标准包含额外的 Unicode 意涵，UCS-4 和 UTF-32 大体是相同的。

五.UTF-8、UTF-16与UTF-32

UTF-8是变长编码，每个Unicode代码点按照不同范围，可以有1-3字节的不同长度。
//UTF-8是压缩的Unicode编码方式.

UTF-16长度相对固定，只要不处理大于\U200000范围的字符，每个Unicode代码点使用16位即2字节表示，超出部分使用两个UTF-16即4字节表示。按照高低位字节顺序，又分为UTF-16BE/UTF-16LE。

UTF-32长度始终固定，每个Unicode代码点使用32位即4字节表示。按照高低位字节顺序，又分为UTF-32BE/UT

陆d

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于UNICODE、UTF-8、UTF-16、UTF-32一些事

关于UNICODE、UTF-8、UTF-16、UTF-32一些事一.Unicode是什么？1.Unicode的前世今生Unicode也可以叫做统一码、万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。早期的计算机在设计时采用8个比特（bit）作为一个字节（byte），因为一个字节能表示的最大的整数是255（二进制11111111=十进制255），0 - 255被用来...
复制链接

扫一扫