目录
- Unicode介绍
- UTF-8介绍
- 关系和区别
Unicode介绍
- Unicode,中文翻译为“统一码”,是一个字符集标准,旨在为全世界所有的字符和符号分配唯一的数字标识,以便计算机能够正确地表示和处理各种语言的文本。
- Unicode通常以十六进制表示,例如U+0041表示拉丁字母“A”。
UTF-8介绍
- UTF-8,英文全称是“Unicode Transformation Format - 8 bits”,是一种用于在计算机中存储和传输Unicode字符的字符编码方式之一。
- UTF-8是一种变长编码,可以根据字符的不同范围使用不同长度的字节来表示字符。
- 使用一个字节来表示ASCII字符,与传统的ASCII编码兼容;对于更高范围的Unicode字符,UTF-8使用多个字节,最多可以使用4个字节来表示一个字符。
- 变长编码的方式使得UTF-8能够高效地表示各种语言的字符的同时,节省存储空间的传输带宽。
关系和区别
- Unicode定义了字符集和每个字符的唯一编码点(讲白了,可以把Unicode想象成一张键值对表,表中记录了所有字符(键)以及字符的所对应的唯一编码数字(值),我们可以给表中的所有字符统一起个名称,叫它们Unicode字符);
- UTF-8是一种具体的编码方式,用于将这些字符编码为字节序列(UTF-8是Unicode的一种实现方式,但不是唯一的实现方式,Unicode还有其他的编码方式,例如UTF-16和UTF-32)。