一、编码格式分类
常见的编码格式的分类有 ASCII 、 ISO-8859-1 (Latin-1)、 GB2312/GBK/GB18030、Big5、Unicode(UTF-8、UTF-16、UTF-32)。
二、介绍和示例
- ASCII (American Standard Code for Information Interchange)
分类:基础的单字节编码,用于表示英文字符和符号。
范围:0-127(7位,但通常存储为8位)
16进制示例:“你好”无法用ASCII表示,因为ASCII不包含中文字符。 - ISO-8859-1 (Latin-1)
分类:单字节扩展的ASCII编码,用于西欧语言。
范围:0-255
16进制示例:“你好”同样无法用Latin-1表示。 - GB2312/GBK/GB18030
分类:简体中文的字符编码标准。
范围:GB2312 包含了6763个常用汉字;GBK 是 GB2312 的扩展,支持更多汉字;GB18030 是 GBK 的扩展,支持更多字符。
16进制示例(GBK编码的“你好”):
你: C4 E3
好: BA C3 - Big5
分类:繁体中文的字符编码标准。
范围:用于表示繁体中文字符。
16进制示例(Big5编码的“你好”依赖于具体的实现和上下文,因为“你”和“好”在Big5中可能有多个编码):
你: 可能是 A4 4E 或其他
好: 可能是 A3 BF 或其他 - Unicode
分类:一个字符集,包含了世界上大多数书写系统中的字符。它有多种编码方式,如UTF-8、UTF-16、UTF-32。
范围:几乎涵盖了所有语言的字符。
16进制示例(UTF-8编码的“你好”):
你: E4 BD A0
好: E5 A5 BD - UTF-8
分类:Unicode的一种可变长度字符编码,兼容ASCII。
范围:通过1到4个字节来表示一个字符。
16进制示例:UTF-8编码的“你好”为E4 BD A0 E5 A5 BD。
你: E4 BD A0
好: E5 A5 BD - UTF-16
分类:Unicode的一种编码方式,通常使用2或4个字节来表示一个字符。
范围:基本多文种平面(BMP)的字符使用2个字节,其他字符使用4个字节。
16进制示例(UTF-16编码的“你好”可能会因为字节序(大端或小端)的不同而有所不同,这里假设大端字节序):
你: 4F60(注意这是两个字节,需要按照大端字节序解释)
好: 597D - UTF-32
分类:Unicode的一种固定长度字符编码,始终使用4个字节来表示一个字符。
范围:所有Unicode字符都使用4个字节表示。
16进制示例(UTF-32编码的“你好”同样会因为字节序的不同而有所不同,这里假设大端字节序):
你: 00004F60
好: 0000597D