有关字符集ASCII与UTF-8
ASCII
最早的字符集,和计算机一起诞生在美国,仅支持26个英语字母与一些英语符号,因此只能让英语国家使用。仅有128个编码,每个编码使用7b表示与存储。其中,0x30为数字0,0x31为数字1,0x39为数字9;0x41为A,0x61为a。
扩展ASCII
欧洲一些国家需要使用一些特有字母,比如法语的 é,德语的 ä ,因此推出了扩展ASCII供欧洲地区使用 ,共256个字符,每个字符用1B存储。
UTF-8
终极字符集,包含了地球上几乎所有字符。UTF-8使用变长编码,用类似Huffman树的思想来编码,用的勤的字符对应的编码就短,冷门偏门的字符对应的编码就长,因此存储效率很高,同时表示效果也很好,可以说终结了字符的表示问题。汉字在UTF-8下占用3B,当然,在纯中文环境下,UTF-8在存储效率上还是不如GBK国标码(2B)的。在存储效率上UTF-8不如许多编码集。
ANSI
微软独有的编码。Windows的记事本就是用的ANSI编码。在不同语言的Windows系统中表示不同编码集。比如在中国就是GBK国标码,在美国就是ASCII码。这样存储效率的确非常高,但是在不同国家的Windows系统中,同一份文本文件就会发生乱码。比如一个中文文本文件,发给韩国人就会变成无意义的韩语文档,发给日本人就会变成无意义的日语文档。这个取决于你安装的哪个国家的Windows,只切换语言与地区时没用的。
GBK
国标码,中国国标局发行的中文编码集,GB2312的正统续作,完全兼容GB2312,每个汉字占用2B,包括繁体字,但不兼容大五码。
BIG-5
大五码,台湾专用,包含繁体字。和GB2312一个时期。