一、ACSLL码的认识
19世纪60年代,美国为了方便在计算机中使用英文,将英文字母以及一些常用的符号共计128个编写了ASCLL码,并存储为一个字节。大家应该都知道一个字节8个二进制位,按照计算机的存储方式,七个二进制位共可以表示128种不同的状态,ASCLL就将一个字节的第一位设置为0,用剩下的七位共128种状态表示128个符号
二、非ASCLL编码
由于计算机的普及,别国也需要在计算机中使用自己国家的语言,但是许多国家语言中有很奇怪的字符。例如俄语中奇奇怪怪的的字母还有法语中的音标,美国制定的ascll码表已经不能满足需求了。于是有些国家就想到利用ascll码表中闲置的第一位编入一些新的符号,这样就有八个二进制位可以表示状态,可表示最多256个符号。但注意这些编码方式都是依托于ASCLL的,即它们的0-127位与ASCLL是一致的,也可以说他们是ASCLL的扩展。
但由于互联网浪潮的关系,每个国家的128-255这一段表示的字符都不一样,只能关上门来自己用,搭上互联网就gg了。特别是中文多达10万个汉字,如何表示?
当然我们知道有GBK这一种编码方式为中文而生,但是与本篇内容没什么关系,里面的门道也很多,所以不做讨论
三、Unicode是个啥~
首先需要知道的是,Unicode只是一个符号集,一个规范,它将全世界所有国家的符号收录进来(包括ASCLL码表中的字符),并规定了每个符号对应的二进制数。
百度Unicode中文码表,可以看到每个汉字对应的Unicode码。
码表数使用转化后的16进制表示&#x