字符编码
bit:位,表示0或1。
byte:字节,是一个位序列,由8位(bit)组成。
字符编码:ASCII,UTF-8,Unicode,GBK等,定义的是将文本文件中的位序列解析成何种字符。比如:位序列01101010
在A编码中被解析成a,在B编码中被解析成¥。所以用A编码就要用A解码。
ASCII:用整型数字表示英文字符及一些符号(控制字符、显示字符(英文字母、数字、标点符号)),每个字符占用1字节,第一位为0,用7位表示数字,总共可以表示128个字符;仅支持英文。
扩展ASCII(EASCII):Extended ASCII用于支持更多欧洲文字,占用1字节,能表示256个符号。通过改变ASCII码高位来表示更多符号,兼容ASCII因为前0-127表示的字符不会改变。
GB2312/GBK/GB18030:中文编码,GB2312和GBK都是简体中文编码,其中GBK支持的文字比GB2312多,GBK向下兼容GB2312;GB18030是繁体中文编码。
Unicode:是一种字符集,收录所有字符。## Everyone in the world should be able to use their own language on phones and computers.
UTF-8:是一种针对Unicode的可变长度字符编码,也是一种前缀码。它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码,属于Unicode标准的一部分。