字符-->字节:编码;
字节-->字符:解码。
字节
字节是计算存储容量的一种计量单位。计算机只能识别1和0组成的二进制位。一个数就是1位(bit),为了方便计算,我们规定8位就是一个字节。
字符
字符和字节不太一样,任何一个文字或符号都是一个字符,但所占字节不一定,不同的编码导致一个字符所占的内存不同。
例如:标点符号+是一个字符,汉字我们是两个字符,在GBK编码中一个汉字占2个字节,在UTF-8编码中一个汉字占3个字节。
public class Ma01 {
public static void main(String[] args) throws UnsupportedEncodingException {
String str="新";
byte[] by=str.getBytes("UTF-8");//用UTF-8的方式编码
for(byte c:by){
System.out.print(c+" ");
}
System.out.println();
String utf=new String(by,0,by.length,"utf-8");//用UTF-8的方式进行解码
System.out.println(utf);
String utf01=new String(by,0,by.length,"GBK");//出现乱码
System.out.println(utf01);
String str1="新垣结衣";
byte[] bytes=str1.getBytes("ISO-8859-1");//用ISO-8859-1编码
for(byte b:bytes){
System.out.print(b+" ");
}
System.out.println();
String string=new String(bytes,"ISO-8859-1");//用ISO-8859-1解码
System.out.println(string);
}
}
无论是哪个汉字,使用ISO-8859-1编码后,都变成了63。这样一来,计算机彻底无法识别是哪一个字符了。
哪怕再用ISO-8859-1进行解码,也无法正确显示中文字符。