一、基本概念
字符集,字符编码/解码
字符集:系统所支持的自然语言的集合,一般按语言和区域划分
字符编码/解码:将字符集合的字符与数字信息建立对应关系
二、字符编码/解码实现
2.1 将字符和数字对应关系放在表中,通过查表的方式实现编码
2.1.1 代码页,码表
对不同字符集使用不同的代码页,每个代码页中定义了许多码表,码表中有字符和字节的对应关系。
注:但代码页并不完全等同于字符集,有时由于现实需要,对字符集进行了扩展
早期,代码页是计算机BIOS中支持的,提供给命令行界面。但后来操作系统也有了字符绘制功能,于是微软自己设计了一系列支持不同国家和地区所制定的字符集,被称作“Windows代码页”或“ANSI代码页”。代表性的是实现了ISO-8859-1(即Latin-1)的代码页1252(即CP1252),以及实现了GBK的代码页936(即CP936)。
2.2 Unicode
虽然通过使用不同字符集,可以在一台机器上查阅不同语言的文档,但是我们仍然无法解决一个问题:在一份文档中显示所有字符。
Unicode字符集涵盖了目前人类使用的所有字符,并为每个字符进行统一编号,分配唯一的字符码(Code Point)。
Unicode字符集将所有字符按照使用上的频繁度划分为17个层面(Plane),每个层面上有65536个字符码空间。
其中第0个层面BMP,基本涵盖了当今世界用到的所有字符。其他的层面要么是用来表示一些远古时期的文字,要么是留作扩展。
在Unicode出现之前,所有的字符集都是和具体编码方案绑定在一起的,都是直接将字符和最终字节流绑定死了。
这种方式的缺点在于,字符和字节流之间耦合得太紧密了,从而限定了字符集的扩展能力。
传统方式:字符 –> 字节流
Unicode字符集中每个字符都有唯一的字符码,但这些字符码可以通过不同的编码方式转换为字节流。
Unicode: 字符 –> 字符码 –> 字节流
常见 Unicode 编码:
- UCS-2/UTF-16
- UTF-8
参考网址:
http://www.techug.com/post/character-set.html
https://www.cnblogs.com/benbenalin/p/6911781.html