Unicode

最新推荐文章于 2023-04-16 23:14:13 发布

球球你了

最新推荐文章于 2023-04-16 23:14:13 发布

阅读量164

点赞数

原文链接：https://baike.baidu.com/item/Unicode/750500?fr=aladdin

版权

Unicode&UTF-8&UTF-16&UTF-32

Unicode

英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。为了解决传统的字符编码方案的局限而产生了Unicode。Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，需要把高字节全部填为0。

在Unicode中：汉字“字”对应的数字是23383（十进制），十六进制表示为5B57。在Unicode中，我们有很多方式将数字23383表示成程序中的数据，包括：UTF-8、UTF-16、UTF-32。UTF是“Unicode Transformation Format”的缩写，可以翻译成Unicode字符集转换格式

UTF-8

UTF-8 是目前互联网上使用最广泛的一种 Unicode 编码方式，它的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。

UTF-16

UTF-16编码以16位无符号整数为单位。我们把Unicode编码记作U。编码规则如下：
1.如果U<0x10000，U的UTF-16编码就是U对应的16位无符号整数（为书写简便，下文将16位无符号整数记作WORD）。
2.如果U≥0x10000，我们先计算U’=U-0x10000，然后将U’写成二进制形式：yyyy yyyy yyxx xxxx xxxx，U的UTF-16编码（二进制）就是：110110yyyyyyyyyy 110111xxxxxxxxxx。