Java字符编码问题_java 字符变成?-CSDN博客

本文链接：https://blog.csdn.net/xxxxian666/article/details/117338917

编程时通常会遇到两种编码形式ANSI 与UTF-8形式,ANSI是根据地区而更改的编码格式,在中国大陆为GBK,在美国就是ASCII编码.而UNF-8是Unicode编码的一个小分支,Unicode是全世界统一

字符串乱码的产生

本质上都是由于 字符串原本的编码格式 与 读取时解析用的编码格式 不一致导致的

Java中getBytes函数的作用

使用命名Charset将此字符串置入一系列字节，将结果存储到新字节数组中。简单说就是
byte[] a = b.getBytes("UTF-8");
将b字符串按照UTF-8的形式编码

乱码案例

public static void main(String a[]) throws UnsupportedEncodingException
	{
		String s = "你好哦!";
		System.out.println( new String(s.getBytes(),"UTF-8")); 
		//因为getBytes()默认使用GBK编码， 而解析时使用UTF-8编码，肯定出错。
	}

因为默认getbyte()的默认参数是GBK,因为两次的编码形式不同而导致乱码

解决的方法

解决办法就是将两次编码形式统一起来

System.out.println( new String(s.getBytes(),"GBK"));
System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));

如何正确的将GBK转UTF-8 ?

String gbkStr = "你好哦!"; //源码文件是GBK格式，或者这个字符串是从GBK文件中读取出来的, 转换为string 变成unicode格式
//利用getBytes将unicode字符串转成UTF-8格式的字节数组
byte[] utf8Bytes = gbkStr.getBytes("UTF-8"); 
//然后用utf-8 对这个字节数组解码成新的字符串
String utf8Str = new String(utf8Bytes, "UTF-8");

简化后的操作就是:

unicodeToUtf8 (String s) {
return new String( s.getBytes("utf-8") , "utf-8");
}