字符编码:
按照某种规则,将字符存储到计算机中,称为编码;反之,将存储在计算机中的二进制数按照某种规则解析显示出来,称为解码。在进行编码和解码过程中,我们必须采用是同一种规则,才能数据正常,否则,会会导致乱码现象。
- 字符编码:就是一套自然语言中的字符与二进制数之间的对应规则。
字符集:
-
字符集:是一个系统可支持的所有字符的集合,包括各国文字,标点符号,图形符号,数字等,也叫编码表。
计算机中要准确的存储和识别各种文字的字符符号,需要进行字符编码,一套字符集至少有一个套字符编码
常见的字符编码集有ASCII字符集、GBK字符集、Unicode字符集。
ASCII字符集:
- ASCII是基于拉丁字母的一套编码系统,用于显示现代英语。
- 基本的ASCII字符集,使用7位(bit)表示一个字符,共128个字符。ASCII的扩展字符集使用8位(bit)表示一个字符,共256个字符。
ISO-8859-1字符集:
- 拉丁码表,别名–Lantin-1,用于显示欧洲使用的语言,包括荷兰,丹麦,德语,意大利语,西班牙语等。
- ISO-8859-1使用单字节编码,兼容ASCII编码。
GB系列字符集
- GB2312:称为简体中文码表,里面大概含有7000多个简体汉字,此外数学符号,罗马希腊的字母、日本的假名都编进去了,连在ASCII里的原来就与的数字、标点、字母都统统重新用的两个字节编写进去了。
- GBK:最常用的中文编码。是在原来GB23121码表基础上进行扩展。使用双字节编码。共收录了21000多个汉字,完全兼容GB2312,标准,同时支持繁体汉字以及日韩汉字等。
- GB18030:最新的中文码表,共收录了7万多个汉字,采用多字节编码,每个字可以由1个字节,2个字节或者4个字节组成,支持国内少数名族的文字,同时支持繁体字以及日韩汉字等。
Unicode字符集:
- Unicode编码系统为表达任意语言的任意字符而设计的,是业界的一种标准,也成为统一编码,标准万国码表。
- 它最多使用4个字节的数字来表示每个字母、符号、或者文字,有三种常见的编码方案:UTF-8,UTF-16,UTF-32。
- UTF-8编码表,用来表示Unicode标准中的任意字符,编码规则:
1. 128个US-ASCII字符,使用的是一个字节编码
2. 拉丁字的字母,需要两个字节编码
3. 大部分常见的汉字,使用的是三个字节编码
4. 其他极少数的辅助字符,采用的四个字节编码。
编码会引发的问题
由于编码规则不一致,导致引发乱码现象。
那么如何读取GBK编码的文件呢?