对Unicode与UTF-8等的初步了解

最新推荐文章于 2023-07-13 10:46:56 发布

SStarry.

最新推荐文章于 2023-07-13 10:46:56 发布

阅读量125

点赞数

本文链接：https://blog.csdn.net/weixin_45602023/article/details/100928837

版权

Unicode

Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。
Unicode 是为了解决传统的字符编码方案的局限而产生的，能够使计算机实现跨语言、跨平台的文本转换及处理。

UTF-8、UTF-16、UTF-32都是Unicode的编码方式。UTF是“Unicode Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。

UTF-8

UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下：
Unicode编码(十六进制)　UTF-8 字节流(二进制)
000000-00007F | 0xxxxxxx
000080-0007FF | 110xxxxx 10xxxxxx
000800-00FFFF | 1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF | 11110xxx10xxxxxx10xxxxxx10xxxxxx
UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。

UTF-16

UTF-16是Unicode字符编码五层次模型的第三层：字符编码表（Character Encoding Form，也称为 “storage format”）的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数（即码元）的序列，用于数据存储或传递。Unicode字符的码位，需要1个或者2个16位长的码元来表示，因此这是一个变长表示。
UTF-16比起UTF-8，好处在于大部分字符都以固定长度的字节 (2字节) 储存，但UTF-16却无法兼容于ASCII编码。