目录
一、引言
字符编码一直是萦绕在心头的痛,精华其实在如何编码上,但是由于平台、编码错乱、各种水文章的原因,导致一直在摸索中前进,以为认为的是对的,直到下次碰到问题才能更深一步理解,在这里碰到的问题总算差不多了,稍微总结一下以免后人栽倒坑里==
二、基础知识介绍
首先要了解的是字符集与字符编码的关系:
字符集就相当于汉语、英语、西班牙语等语种,其中确定了包含的文字和文字对应的编号;
字符编码指的是如何将这些文字对应的编号进行加工按照一定的法则排列;
字符集:
因为计算机美国人发明的,最早的字符集是ASCII字符集,然后欧洲人开始拓展了ASCII字符集为ISO8859-1,其中包含了西班牙语等一些字母;
后来计算机开始支持汉语,汉语也有了自己的字符集GB2312,由于汉字实在太多了,后来拓展为GBK字符集,两者相互兼容;
由于各个国家有各个国家(咯咯咯咯咯咯咯)的字符集,有些编号相同但是不同字符集对应的翻译的不同,瞎举例子0001在ascii字符集对应“s”,在GBK字符集对应的是“我”,开始搞了全球通用的一套编码unicode;
字符编码:
每一套字符集中都对应一种或者多种字符编码,
ASCII字符集——ASCII编码;ISO-8859-1字符集——ISO8859-1编码;
GB2312字符集——GB2312编码;GBK字符集——GBK编码;
Unicode字符集——UTF-16/UTF-8/UTF-32;
三、java中的编码问题
1、字符转内存
java中的基本类型byte、short、int、long;float、double;bool;char中,涉及到字符的是char和byte;
引用类型中主要是String,底层是char保存(jdk8以后的是byte保存);
String s = "君山";
char[] charsutf=s.toCharArray();
System.out.print("toCharArray:");
for (char temp:charsutf) {
System.out.print(Integer.toHexString(temp)+",");
}
System