常见乱码产生原因以及锟斤拷的产生过程-CSDN博客

本文链接：https://blog.csdn.net/weixin_43660088/article/details/125300009

文章目录

常见乱码产生原因

名称	示例	特点	原因
古文码	浜屽紶涓夋潕鍥旇档鍏	大多为不认识的古文，夹杂日韩文	以GBK方式读取UTF-8编码的中文
方块码	��	大部分字符为方块问号	以UTF-8方式读取GBK编码的中文
符号码	å¼ä¸æåçäºèµµèä¸	大部分字符为各种符号	以ISO8859-1方式读取UTF-8编码的中文
拼音码	ÕÅÈýÀîËÄÍõÎåÕÔÁ	大部分字符为带着声调的字母	以ISO8859-1方式读取GBK编码的中文
问句码	寮犱笁鏉庡洓鐜嬩簲叚鑰?	基本和古文码一致，字符串为偶数时正常，长度为奇数时结尾会带上问号	以GBK方式读取UTF-8编码的中文，然后又用GBK的格式再次读取
锟拷码	锟斤拷锟斤拷锟斤拷	基本都是锟斤拷三个字符	以GBK方式读取UTF-8编码的��

方块码的产生原因

下面我们来看一下方块码具体是怎么来的
首先需要知道方块码‘�’的产生原因，由上图可知，方块码是以UTF-8方式读取GBK编码的中文，而UTF-8和GBK编码的区别在于：

UTF-8会将中文转化成三个字节进行存储
GBK会将中文转化成两个字节进行存储

代码测试

public class TestCode {

    public static void main(String[] args) {
        test_UTF8_GBK();
    }
    
   //UTF8_GBK
    static void test_UTF8_GBK(){
        try {
            byte[] GBKbyte = "张三".getBytes("GBK");
            System.out.print("张三的GBK编码：");
            for (byte b : GBKbyte) {
                System.out.print(b + " ");
            }
            String UTF8_GBKbyte = new String(GBKbyte, "UTF-8");
            System.out.println("\nUTF-8读取GBK编码："+UTF8_GBKbyte);
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
    }
    
}

控制台打印以下信息

张三的GBK编码：-43 -59 -56 -3
UTF-8读取GBK编码：��

编码原理

"张三"在GBK中实际以-43 -59 -56 -3 进行存储，再由UTF-8读取时，由于这些码在UTF-8库中无法匹配
UTF-8字符集也有一个专门用于提示用户字符无法识别或展示的替换符号：也就是‘�’
因此，我们会看到，使用UTF-8读取GBK编码的中文时就会产生方块码

锟拷码的产生原因

由上表可知，锟拷码是由于以GBK方式读取UTF-8编码的��得到，而如果产生了方块码，就有可能会产生锟拷码

代码测试

public class TestCode {

    public static void main(String[] args) {
        test_GBK_UTF8byte();
    }

    static void test_GBK_UTF8byte() {
        try {
            byte[] UTF8byte = "����".getBytes("UTF-8");
            for (byte b : UTF8byte) {
                System.out.print(" " + b);
            }
            String GBK_UTF8byte = new String(UTF8byte, "GBK");
            System.out.println("\n" + GBK_UTF8byte);
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
    }
    
}