Unicode和之间utf8的关系

最新推荐文章于 2022-11-23 09:40:41 发布

weixin_45773632

最新推荐文章于 2022-11-23 09:40:41 发布

阅读量196

点赞数

文章标签：程序员基础

本文链接：https://blog.csdn.net/weixin_45773632/article/details/122793213

版权

本文探讨了Unicode编码和UTF-8编码的区别。Unicode标准使用UCS-4编码，每个字符用4个字节表示，但UTF-8通过变长编码节省存储空间，对ASCII字符保持兼容，常用汉字则用3个字节编码。UTF-8和UTF-16都是对Unicode字符代码的再编码方式，以适应不同的存储和传输需求。

摘要由CSDN通过智能技术生成

既然提到了Unicode编码，为什么又有UTF-8编码方案呢？其实我们常常混淆了两个概念，即字符代码和字符编码，字符代码是特定字符在某个字符集中的序号，而字符编码是在传输、存储过程当中用于表示字符的以字节为单位的二进制序列。

ASCII编码系统中，字符代码和字符编码是一致的，比如字符A，在ASCII字符集中的序号，也就是所谓的字符代码是65，存储在磁盘中的二进制比特序列是01000001（0X41，十进制也是65），另外的，如在GB2312编码系统中字符代码和字符编码的值也是一致的，所以无形之中我们就忽略了二者的差异性。

而在Unicode标准中，我们目前使用的是UCS-4，即字符集中每一个字符的字符代码都是用4个字节来表示，其中字符代码0~127兼容ASCII字符集，一般的通用汉字的字符代码也都集中在65535之前，使用大于65535的字符代码，即需要超过两个字节来表示的字符代码是比较少的。因此，如果仍然依旧采用字符代码和字符编码相一致的编码方式，那么拉丁字母原本仅需一个字节编码，目前就需要4个字节进行编码，汉字原本仅需两个字节进行编码，目前也需要4个字节进行编码，这对于存储或传输资源而言是很不划算的。因此就需要在字符代码和字符编码间进行再编码，这样就引出了UTF-8、UTF-16等编码方式。

基于上述需求，UTF-8就是针对位于不同范围的字符代码转化成不同长度的字符编码，同时这种编码方式是以字节为单位，并且完全兼容ASCII编码，即0X00-0X7F的字符代码和字符编码完全一致，也是用一个字节来编码ASCII字符集，而常用汉字在Unicode中的字符代码是4E00-9FA5，在文末的对应关系中我们看到是用三个字节来进行汉字字符的编码。UTF-16同理，就是以16位二进制数为基本单位对Unicode字符集中的字符代码进行再编码，原理和UTF-8一致。

weixin_45773632

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Unicode和之间utf8的关系

既然提到了Unicode编码，为什么又有UTF-8编码方案呢？其实我们常常混淆了两个概念，即字符代码和字符编码，字符代码是特定字符在某个字符集中的序号，而字符编码是在传输、存储过程当中用于表示字符的以字节为单位的二进制序列。ASCII编码系统中，字符代码和字符编码是一致的，比如字符A，在ASCII字符集中的序号，也就是所谓的字符代码是65，存储在磁盘中的二进制比特序列是01000001（0X41，十进制也是65），另外的，如在GB2312编码系统中字符代码和字符编码的值也是一致的，所以无形之中我们就忽略了
复制链接

扫一扫