java字符串编码转换过程中发生了啥？

最新推荐文章于 2023-02-27 08:00:00 发布

john-zeng

最新推荐文章于 2023-02-27 08:00:00 发布

阅读量333

点赞数

分类专栏：编程语言文章标签： java

本文链接：https://blog.csdn.net/zerooffdate/article/details/97696155

版权

编程语言专栏收录该内容

12 篇文章 0 订阅

订阅专栏

背景：

有一个db链接，使用了latin1编码。有一个latin1的表，里面要存储UTF8或者GBK的中文。

然后在java代码层，为了把正确编码的中文落库，使用了网上流传着的这么一段编码转换的代码

public static String encodeLantin1(String s) {

    try {

        return new String(s.getBytes("GBK"), "ISO-8859-1");

    } catch (Exception e) {

        logger.error("转换错误！(可能为空值)");

    }

    return null;

}

这个代码的功能如下：

输入一个字符串s，将这个字符串编码为GBK，然后返回成latin1（ISO-8859-1）数据库可以存储的值。但是网上同时流传着一个说法：java底层使用UTF16存储字符串，所以不存在一个String是使用UTF8编码，或者GBK编码的。

作为一个c程序员，疑惑就出来了：既然java是使用UTF16存储的，那我转编码后，然后又用String存储，那我存到不就是一样的二进制吗？转编码有意义？或者更直白的，这个转编码过程，到底做了什么？

为了解决疑惑，我简单写了一个测试程序，内容如下

public class Main {



    private static final char[] HEX_ARRAY = "0123456789ABCDEF".toCharArray();

    public static String bytesToHex(byte[] bytes) {

        char[] hexChars = new char[bytes.length * 2];

        for (int j = 0; j < bytes.length; j++) {

            int v = bytes[j] & 0xFF;

            hexChars[j * 2] = HEX_ARRAY[v >>> 4];

            hexChars[j * 2 + 1] = HEX_ARRAY[v & 0x0F];

        }

        return new String(hexChars);

    }

    public static void main(String[] args) {

        try

        {

            System.out.println("你好");

            System.out.println("direct:"+bytesToHex("你好".getBytes()));

            System.out.println("get as utf8:"+bytesToHex("你好".getBytes("UTF-8")));

            System.out.println("get as gbk:"+bytesToHex("你好".getBytes("GBK")));

            System.out.println("get as iso:"+bytesToHex("你好".getBytes("ISO-8859-1")));

            System.out.println("convert to utf8 and then get as iso:"+bytesToHex(new String("你好".getBytes(), "ISO-8859-1").getBytes("ISO-8859-1")));

            System.out.println("convert to gbk and then get as iso:"+bytesToHex(new String("你好".getBytes("GBK"), "ISO-8859-1").getBytes("ISO-8859-1")));

            System.out.println(new String("你好".getBytes(), "ISO-8859-1"));

        }catch(Exception e)

        {



        }

    }

}

输出结果如下

你好

direct:E4BDA0E5A5BD

get as utf8:E4BDA0E5A5BD

get as gbk:C4E3BAC3

get as iso:3F3F

convert to utf8 and then get as iso:E4BDA0E5A5BD

convert to gbk and then get as iso:C4E3BAC3

ä½ å¥½

所以这里传达了几个信息：

1，jvm的默认getbyte编码为utf8

2，使用不同编码进行getbyte，得到的结果不同