字符编码
在实际工作中最常见的4种编码如下:
GBK、GB2312:中文的国标编码,其中GBK包含简体中文与繁体中文两种,而GB2312只包含简体中文;
ISO8859-1:是国际编码,可以描述任何文字信息(中文需要转码);
UNICODE:是十六进制编码,但是在传递字符信息时会造成传输的数据较大;
UTF编码(Unicode Transformation Format):是一种UNICODE的可变长度编码,常见的编码为UTF-8编码。
例:取得当前系统中的环境属性中的文件编码
package Project.Study.CharacterEncoding;
public class Test1 {
public static void main(String[]args){
System.getProperties().list(System.out);//列出全部系统属性
}
}
//结果:
//file.encoding=UTF-8
//(其他无关输出结果省略)
由上程序我们可以发现,默认的编码是UTF-8,所以当程序向文件中输出信息时,文件就会使用UTF-8编码,而文件的内容也应该是UTF-8编码,此处如果强行修改为其他编码,就会出现乱码。
例:程序出现乱码
package Project.Study.CharacterEncoding;
import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;
public class Test2 {
public static void main(String[]args)throws Exception{
File file=new File("D:"+File.separator+"Test"+File.separator+"test.txt");
OutputStream outputStream=new FileOutputStream(file);
outputStream.write("输出结果:Hello World".getBytes("ISO8859-1"));//强制改变文字的编码,此操作可以通过String类的getBytes()方法实现
outputStream.close();
}
}
结果: