ASCII码、utf-8和unicode的区别与联系_ascii码在unicode的范围-CSDN博客

ASCII码

在计算机内部，所有的信息最终都表示为一个二进制的字符串。

每一个二进制位有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节。

一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从0000000到11111111。

上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。

这被称为ASCII码，一直沿用至今。

ASCII码一共规定了128个字符的编码。

这128个符号，只占用了一个字节的后面7位，最前面的1位统一规定为0。

Unicode
Unicode是一种一种所有符号的编码。将世界上所有的符号都纳入其中的编码，每一个符号都给予一个独一无二的编码。
Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。
UTF-8
UTF-8就是在互联网上使用最广的一种Unicode的实现方式。
这里的关系是，UTF-8是Unicode的实现方式之一，它规定了字符如何在计算机中存储、传输等。
UTF-8最大的一个特点，就是它是一种变长的编码方式。

它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。

因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。

剩下的没有提及的二进制位，全部为这个符号的unicode码。

UTF-8 可以使用1到4个字节来表示字符，它通过自身的规则能够灵活地变化长度来存储 Unicode 字符。

下表总结了编码规则，字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式

(十六进制) | （二进制）

--------------------+---------------------------------------------

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表，解读UTF-8编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；

如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

总结：
Unicode 虽然能容纳上百万数量的字符，但是它只是一个巨大的字符集，仅仅规定了每个符号的二进制代码，却没有制定细化的存储规则，例如当用三个字节存储一个字符时，它同时也可以被理解为存储了三个 ASCII 码，另外我们之前知道 ASCII 码只需要一个字节，但是如果 Unicode 规定每个字符使用三个字节来存储的话，那岂不是额外浪费两个字节的空间？所有这些未细化的问题都将导致 Unicode 的不一致性。

首先我们要明确 UTF-8（8-bit Unicode Transformation Format）是在统一码（Unicode）基础上细化并优化后的一种长度可变的字符编码方式，它是实现 Unicode 的方式之一，除了 UTF-8，还有UTF-16，UTF-32 等都可以实现 Unicode，但是 UTF-8 相对而言是用的最为广泛的。