假设现在可以得到由两个汉字经过UTF8转码后的字符串:"\u7A0B\u5E8F",但这个字符串是放在一个String变量里的。然后现在想要把它转回汉字。
String s1 = "\u7A0B\u5E8F";
String s2 = new String("\u7A0B\u5E8F".getBytes("utf-8"));
System.out.println(s2);
//输出结果:程序
String s3 = new String("\\u7A0B\\u5E8F".getBytes("utf-8"));
System.out.println(s3);
//输出结果:\u7A0B\u5E8F
String s4 = new String(s1.getBytes("utf-8"));
System.out.println(s4);
//输出结果:\u7A0B\u5E8F
由上述代码可见,字节使用 String 的 getBytes() 方法会先自动进行转义,最后得到的并不是预期的结果。
使用 common-lang 包中的 StringEscapeUtils 工具类。
String s1 = "\u7A0B\u5E8F";
String s5 = StringEscapeUtils.unescapeJava(s1);
System.out.println(s5);
//输出结果:程序
反过来:
String s1 = StringEscapeUtils.escapeJava("程序");
System.out.println(s1);
//输出结果:\u7A0B\u5E8F