关于ASCII和Unicode与utf8的关系

最新推荐文章于 2024-05-25 17:41:43 发布

小易说码

最新推荐文章于 2024-05-25 17:41:43 发布

阅读量512

点赞数

分类专栏： java基础文章标签： mysql 数据库预编码

本文链接：https://blog.csdn.net/weixin_43816557/article/details/126534753

版权

java基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

前言
一、ASCII码
二、Unicode
三、UTF8
- 关于utf8mb4
总结

前言

提示：在了解utf8mb4之前，需要先了解utf8与ASCII和unicode的区别：

提示：以下是本篇文章正文内容，下面案例可供参考

一、ASCII码

ASCII：8bits的英文编码，实际使用低7位，最多表示128个字符。之前是控制字符，之后是有效字符。如：110 0001 >>> a(97)，128个字符对于全球字符数量来说明显不够的。

二、Unicode

Unicode：使用两字节对全球主流字符进行统一编码，有65536个编码。

三、UTF8

UTF指的是：Unicode Transfer Format，即Unicode传输编码。

UTF传输规则：
ASCII
110  0001  >>> a(97)
当传输字符为一个字节时，UTF传输固定格式如下，将一个字节拆分为两段，低6位放在第二段低6位，剩下的1位放在第一段最后1位，其余补0
110 xxxxx   10 xxxxxx   大概可以传输的字符有2的12次方减1种字符

Unicode 
1011 0000 1101 1101 >>>汉
当传输字符为两个字节时，UTF传输固定格式如下，将两个字节拆分为三段段，低6位放在第三段低6位，中间6位放在第二段低6位，高4位放在第一段低4位
110xxxxx   10xxxxxx	10xxxxxx   可以传输2的17次方减1种字符