java utf-8 转 gbk / gbk 转 utf-8

原理:

已unicode为中介
utf-8 ——》unicode——》gbk
gbk ——》unicode——》utf-8

知识点:

1、 unicode是一种“编码”,
所谓编码就是一个编号(数字)到字符的一种映射关系,
就仅仅是一种一对一的映射而已,
可以理解成一个很大的对应表格。
2、 GBK、UTF-8是一种“编码格式”,
是用来序列化或存储1中提到的那个“编号(数字)”的一种“格式”;
GBK和UTF-8都是用来序列化或存储unicode编码的数据的,
但是分别是2种不同的格式;
他们俩除了格式不一样之外,
他们所关心的unicode编码范围也不一样,
utf-8考虑了很多种不同国家的字符,
涵盖整个unicode码表,
所以其存储一个字符的编码的时候,
使用的字节长度也从1字节到4字节不等;
而GBK只考虑中文——在unicode中的一小部分——的字符的编码,
所以它算好了只要2个字节就能涵盖到绝大多数常用中文(2个字节能表示6w多种字符),
所以它存储一个字符的时候,
所用的字节长度是固定的;

链接:https://www.zhihu.com/question/20361462/answer/14899233

正确代码

方法1:

//utf-8转gbk
String clientStr = new String(str.getBytes("GBK"), "GBK");
//gbk转utf-8
String clientStr = new String(str.getBytes("UTF-8"), "UTF-8");

方法2:

/**
* gbk与utf-8互转
* 利用BASE64Encoder/BASE64Decoder实现互转
* @param str
* @return
*/
private String charsetConvert(String str, String charset) {
    try {
        str = new sun.misc.BASE64Encoder().encode(str.getBytes(charset));
        byte[] bytes = new sun.misc.BASE64Decoder().decodeBuffer(str);
        str = new String(bytes, charset);
    } catch(IOException e) {
        e.printStackTrace();
    }
    return str;
}

错误代码

    /**
     * gbk转utf-8
     * @param str
     * @return
     */
    public static String gbkToUtf8(String str) {
        String utf8Str = "";
        try {
            String UnicodeStr = gbkToUnicode(str);
            utf8Str = unicodeToUtf8(UnicodeStr);
        } catch (Exception e) {
            LogUtil.info("gbk转utf-8 异常,原字符串返回!");
            utf8Str = str;
        }
        return utf8Str;
    }

    /**
     * utf-8转gbk,实际测试中发现有部分汉字转换不了
     * @param str
     * @return
     */
    public static String utf8ToGbk(String str) {
        String gbkStr = "";
        try {
            String UnicodeStr = utf8ToUnicode(str);
            gbkStr = unicodeToGbk(UnicodeStr);
        } catch (Exception e) {
            LogUtil.info("utf-8 转 gbk异常,原字符串返回!");
            gbkStr = str;
        }
        return gbkStr;
    }

上面utf-8转gbk,实际测试中发现有部分汉字转换不了


    /**
     * gbk转unicode
     * @param str
     * @return
     */
    public static String gbkToUnicode(String str) {
        StringBuffer result = new StringBuffer();
        for (int i = 0; i < str.length(); i++) {
            char chr1 = (char) str.charAt(i);
            if ((chr1 & (0x00FF)) == chr1) {
                result.append(chr1);
                continue;
            }
            result.append("\\u" + Integer.toHexString((int) chr1));
        }
        return result.toString();
    }

    /**
     * unicode转gbk
     * @param dataStr
     * @return
     */
    public static String unicodeToGbk(String dataStr) {
        int index = 0;
        StringBuffer buffer = new StringBuffer();
        int li_len = dataStr.length();
        while (index < li_len) {
            if (index >= li_len - 1
                    || !"\\u".equals(dataStr.substring(index, index + 2))) {
                buffer.append(dataStr.charAt(index));
                index++;
                continue;
            }
            String charStr = "";
            charStr = dataStr.substring(index + 2, index + 6);
            char letter = (char) Integer.parseInt(charStr, 16);
            buffer.append(letter);
            index += 6;
        }
        return buffer.toString();
    }

    /**
     * utf-8转unicode
     * @param inStr
     * @return
     */
    public static String utf8ToUnicode(String inStr) {
        char[] myBuffer = inStr.toCharArray();
        StringBuffer sb = new StringBuffer();
        for (int i = 0; i < inStr.length(); i++) {
            UnicodeBlock ub = UnicodeBlock.of(myBuffer[i]);
            if (ub == UnicodeBlock.BASIC_LATIN) {
                sb.append(myBuffer[i]);
            } else if (ub == UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
                int j = (int) myBuffer[i] - 65248;
                sb.append((char) j);
            } else {
                short s = (short) myBuffer[i];
                String hexS = Integer.toHexString(s);
                String unicode = "\\u" + hexS;
                sb.append(unicode.toLowerCase());
            }
        }
        return sb.toString();
    }

    /**
     * unicode转utf-8
     * @param theString
     * @return
     */
    public static String unicodeToUtf8(String theString) {
        char aChar;
        int len = theString.length();
        StringBuffer outBuffer = new StringBuffer(len);
        for (int x = 0; x < len;) {
            aChar = theString.charAt(x++);
            if (aChar == '\\') {
                aChar = theString.charAt(x++);
                if (aChar == 'u') {
                    int value = 0;
                    for (int i = 0; i < 4; i++) {
                        aChar = theString.charAt(x++);
                        switch (aChar) {
                        case '0':
                        case '1':
                        case '2':
                        case '3':
                        case '4':
                        case '5':
                        case '6':
                        case '7':
                        case '8':
                        case '9':
                            value = (value << 4) + aChar - '0';
                            break;
                        case 'a':
                        case 'b':
                        case 'c':
                        case 'd':
                        case 'e':
                        case 'f':
                            value = (value << 4) + 10 + aChar - 'a';
                            break;
                        case 'A':
                        case 'B':
                        case 'C':
                        case 'D':
                        case 'E':
                        case 'F':
                            value = (value << 4) + 10 + aChar - 'A';
                            break;
                        default:
                            throw new IllegalArgumentException(
                                    "Malformed   \\uxxxx   encoding.");
                        }
                    }
                    outBuffer.append((char) value);
                } else {
                    if (aChar == 't')
                        aChar = '\t';
                    else if (aChar == 'r')
                        aChar = '\r';
                    else if (aChar == 'n')
                        aChar = '\n';
                    else if (aChar == 'f')
                        aChar = '\f';
                    outBuffer.append(aChar);
                }
            } else
                outBuffer.append(aChar);
        }
        return outBuffer.toString();
    }

参照:原博客

  • 4
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Java中进行UTF-8GBK码,如果使用不当会导致乱码问题。一种错误的用法是将UTF-8格式的字节流直接使用GBK进行解码,这是不合规矩的。因为UTF-8GBK是不同的字符集,它们的编码方式不同。就好比一个美国人说英语,让一个不懂英文又不会学舌的日本人听,然后传递消息给另一个美国人,这样会导致消息的失真。因此,在解决字符集乱码问题时,一般需要显示指定编码和解码字符集。 正确的UTF-8GBK码操作应该是这样的: ``` byte[] utfByte = str.getBytes("UTF-8"); // 将字符串以UTF-8编码换为字节流 String gbk = new String(utfByte, "GBK"); // 将UTF-8的字节流以GBK解码为字符串 ``` 这样可以确保字符集的正确换,避免出现乱码问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [再谈java乱码:GBKUTF-8尾部乱码问题分析](https://blog.csdn.net/weixin_34072637/article/details/91697486)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Java使用UTF-8GBK编码后还是乱码问题的解决办法](https://blog.csdn.net/phker/article/details/131533428)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值