编程时通常会遇到两种编码形式
ANSI
与UTF-8
形式,ANSI是根据地区而更改的编码格式,在中国大陆为GBK
,在美国就是ASCII
编码.而UNF-8
是Unicode
编码的一个小分支,Unicode
是全世界统一
字符串乱码的产生
本质上都是由于 字符串原本的编码格式 与 读取时解析用的编码格式 不一致导致的
Java中getBytes函数的作用
使用命名Charset将此字符串置入一系列字节,将结果存储到新字节数组中。简单说就是
byte[] a = b.getBytes("UTF-8");
将b字符串按照UTF-8
的形式编码
乱码案例
public static void main(String a[]) throws UnsupportedEncodingException
{
String s = "你好哦!";
System.out.println( new String(s.getBytes(),"UTF-8"));
//因为getBytes()默认使用GBK编码, 而解析时使用UTF-8编码,肯定出错。
}
因为默认getbyte()的默认参数是GBK
,因为两次的编码形式不同而导致乱码
解决的方法
解决办法就是将两次编码形式统一起来
System.out.println( new String(s.getBytes(),"GBK"));
System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));
如何正确的将GBK转UTF-8 ?
String gbkStr = "你好哦!"; //源码文件是GBK格式,或者这个字符串是从GBK文件中读取出来的, 转换为string 变成unicode格式
//利用getBytes将unicode字符串转成UTF-8格式的字节数组
byte[] utf8Bytes = gbkStr.getBytes("UTF-8");
//然后用utf-8 对这个字节数组解码成新的字符串
String utf8Str = new String(utf8Bytes, "UTF-8");
简化后的操作就是:
unicodeToUtf8 (String s) {
return new String( s.getBytes("utf-8") , "utf-8");
}