1.字符编码
ASCII编码(0- 7F):
一般的英文字符用ASCII就够了,不过还有ASCII拓展表(80-FF)
ASCII编码的拓展:GB2312或GB2312-80编码
因为汉字太多了,专家们就规定把两个ASCII拓展表中的符号拼到一起组成一个汉字。
不过GB2312编码有着明显的弊端就是一个国家规定一个国家的文字对应的编码。有可能你用GB2312编码写一封邮件给国外的朋友,他看到的与你写的就不是一样的。
UNICODE编码
于是出现了UNICODE编码,它是全世界文字的编码表,就是说只要是这个世界上的文字就存在唯一与之对应的编码。UNICODE编码范围是:0-0x10FFFF
不过它只是一个符号集,它没有规定代码如何储存.
储存UNICODE:UTF-16/UTF-8
1.UTf-16:
UTF-16编码以16位无符号整数为单位,即以两个字节为单位。如果两个字节不能表示所要表示的字符那么用四个字节表示。如果只要1个或3个字节表示,空处用