字符编码: 主要介绍 Unicode编码、UTF-8编码、UTF-16编码
计算机里只有数字,计算机软件里的一切都是用来数字来表示的,屏幕上显示的一个个字符也不例外
字符a对就数是97 想这种字符编码对应的规则被称为ASCII。ASCII的最高bit位都是0,也就是说这些数字在0-127之间
Unicode编码:将全世界所有的符号进行了统一编码
特点: 该编码的字符都占用两个字节的大小
在全世界的任何角落始终对应的都是一个十六进制的数字
该编码可以保留两千多个数值没有用于字符编码
在相当长的一段时期内,本地化字符编码将与Unicode编码共存
java字符使用都是Unicode编码
UTF-8编码:
ASCII码字符保持原样,仍然只占用一个字节,对于其它国家的字符,UTF-8使用两个或三个字节来表示。
使用UTF-8编码的文件,通常都要用EF BB BF作为文件开头的三个字节数据。
优点:
不出现内容为0X00字节
便于应用程序检测数据在传输过程中是否发生了错误
直接处理使用ASCII码的英文文当
缺点:
某些字符需要使用三个字节
UTF-16编码:
UTF-16编码在Unicode基础上进行了一些细节上的扩充,增加了对Unicode编码没有包括的那些字符的表示方式。
UTF-16对Unicode的扩充关没有影响Unicode编码所包括的那些字符,只是增加了对Unicode编码没有包括的那些
字符的表示方式。一个使用Unicode编码的字符就是工UTF-16格式的
在不同体系结构的计算机系统中,UTF-16编码的Unicode字符在内存中的字节存储顺序是不同的
字符转换实例:
package cn;
import java.io.UnsupportedEncodingException;
public class CharCode {
public static void main(String[] args) throws UnsupportedEncodingException {
//定义字符
String strChina = "中国";
//打印字符中的Unicode编码
for(int i=0;i<strChina.length();i++){
System.out.println(Integer.toHexString((int)strChina.charAt(i)));
}
byte [] buf = strChina.getBytes("gb2312");
for(int i=0;i<buf.length;i++){
System.out.println(Integer.toHexString(buf[i]));
}
for(int i=0;i<buf.length;i++){
System.out.write(buf[i]);
}
}
}