-
ASCII
长度一个字节,不包括中文 -
GBK
和GB2312, GB18030等同族。
单双字节变长编码;高字节>127代表连续的两个字节表汉字,单字节与ASCII相同。 -
ANSI
ASCII无法满足基本需求的国家和区域的自有编码统称ANSI,如果是Windows简体中文版ANSI可能使用GB2312,繁体操作系统可能是BIG5。 -
Unicode
将世界上绝大多数国家的文字、符号都编入其中的字符集。
通常为两个字节,如果直接使用较耗带宽和硬盘。 -
UTF——Unicode的实现(存储)方式
- UTF-8
最广泛的使用的 UTF 方案
可变长度(1~6)字节来储存 Unicode 字符
- UTF-16
两字节 - UTF-32
四字节
BOM文件编码头,它是插入到以UTF-8、UTF16或UTF-32编码文件开头的特殊标记,用来识别文件的编码类型。对于UTF-8来说,BOM标记的有无并不是必须的。
- UTF-8
在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。