字符集
常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。相信这些大家也都很熟悉,下面带领大家认识一下这些字符集。
那么大家就有一个疑问了,什么是字符集呢?
字符集就是将人类使用的自然文字映射到计算机内部二进制的表示方法,也就是说用二进制的编码来表示人类文字,字符集是文字和字符的集合。
ASCII(American Standard Code for Information Interchange,美国信息互换标准编码)是基于罗马字母表的一套电脑编码系统。
是最早的字符集。主要包含基本的大小写字母及常用符号。举例:其中32表示空,在c语言中如果定义一个char a = 32;如果输出a,输出的就是空格。
只用了7位编码结构(00-7F),0x20表示空格;第八位没有使用。虽然戚薇已经基本支持计算机字符的显示和保存,但是对西欧国家的字符集却不支持,如英国和德国的货币符号、法国的重音符号等,因此人们把第八位也使用起来了,就形成了对ASCII码的扩展集:ISO-8859。ISO-8859
ISO-8859实在ASCII码上的扩展,其中包含128个ASCII码字符,并增加了128个用于西欧国家的字符。ISO-8859存在不同的分支:ISO8859-1 字符集,也就是 Latin-1,是西欧常用字符,包括德法两国的字母。
ISO8859-2 字符集,也称为 Latin-2,收集了东欧字符。
ISO8859-3 字符集,也称为 Latin-3,收集了南欧字符。
ISO8859-4 字符集,也称为 Latin-4,收集了北欧字符等GB2312
终于,中国也坐不住了。GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。虽然中国发布的,但是在中国和新加坡广泛使用。所以当你看到GB2312编码的就是汉字。
GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字。
汉字使用两个字节表示的。两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。所以,一个1M的txt文档,用GB2312编码,能保存的汉字数最多只有1024字节/2=521个。Unicode
Unicode是一个字符集,这个字符集就厉害了,他想包含所有的字符,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。
大家想一下就知道为什么Unicode会出现?
大家肯定都遇到多乱码的问题,就是因为大家的编码不一样,如果你收到一封邮件,收件人和发件人的编码不一样,乱码了, 你怎么看,所以为了避免这种情况的发生,Unicode就产生了。
所以:Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。