/*
编码:字符串变成字节数组
String---->byte[]:
str.getBytes(charsetName);
byte[]---->String
new String(byte[],charsetName);
这个程序实现了,先由GBK进行编码,然后用别的码表进行解码,但是解出来不是?就是乱码,所以需要再用别的码表编码一次
再用GBK进行解码!
GBK码表一个字符对应2个字节。[-60, -29, -70, -61]识别中文
UTF-8码表一个字符对应3个字节。[-28, -67, -96, -27, -91, -67]识别中文
ISO8859-1码表一个字符对应1个字节。[63, 63]不识别中文
所以说用GBK码表进行编码后[-60, -29, -70, -61],再用UTF-8码表进行解码后,由于是识别中文的所以"你好"变成了???,
而如果再用UTF-8进行编码的话,[-17, -65, -67, -17, -65, -67, -17, -65, -67]
所以说这时再用GBK解码的话得到的不是你好!
这点千万注意!!!(原因就在于UTF-8识别中文)
用GBK对 "你好"编码后再用UTF-8解码得到的是(锟斤拷锟?)
用GBK对 "哈哈"编码后再用UTF-8解码得到的是(锟斤拷锟斤拷)
得到的看上去都差不多原因是:在UTF-8码表查不到对应规则的数据,就会到码表里的未知字符区域里去查,查到相似的字符就返回了.
*/
import java.util.*;
class EncodeDemo
{
public static void main(String[] args) throws Exception
{
String s="哈哈";
byte b1[]=s.getBytes("GBK");
System.out.println(Arrays.toString(b1));
String s1=new String(b1,"ISO8859-1");//String s1=new String(b1,"UTF-8");
System.out.println("s1==="+s1);
byte b2[]=s1.getBytes("ISO8859-1");//String s1=new String(b1,"UTF-8");因为UTF-8识别中文,并且一个字符对应3个字节
String s2=new String(b2,"GBK");
System.out.println(Arrays.toString(b2));
System.out.println("s2==="+s2);
}
}
编码解码!(UTF-8,iso8859-1,gbk)
最新推荐文章于 2023-04-14 14:58:14 发布