字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。
内码是指操作系统内部的字符编码。早期操作系统的内码是与语言相关的。现在的Windows在系统内部支持Unicode,然后用代码页(code page)适应各种语言。微软一般将缺省代码页指定的编码说成是内码。
EBCDIC (Extended binary coded decimal interchange code)
IBM于1963-1964年间推出的字符编码表,根据早期打孔机式的二进化十进数(BCD)排列而成。
EBCDIC编码的英文字母不是连续排列的,中间出现了多次断续,给编程带来了一些困难。
ASCII(American standard code for iInformation interchange)
计算机是美国人发明的,他们首先要考虑的问题是,如何将二进制和英文字母(拉丁文)对应起来。ASCII编码是美国人给自己设计的。ASCII 的标准版本于1967年第一次发布,最后一次更新则是在1986 年,迄今为止共收录了128个字符。
在ASCII编码中,大写字母、小写字母和阿拉伯数字都是连续分布的,这给程序设计带来了很大的方便。ASCII编码已经成了计算机的通用标准,没有人再使用EBCDIC了,它已经消失在历史的长河中了。
ANSI、DBCS(Double-byte character set)、MBCS(Muilti-bytes)
为了扩充ASCII编码,以用于显示本国的语言,不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、Big5(中文繁体)、Shift_JIS(日文)等各自的编码标