JAVA小技巧:判断文本文件使用的字符集

最新推荐文章于 2024-07-03 02:34:55 发布

yuzhouxiang

最新推荐文章于 2024-07-03 02:34:55 发布

阅读量1.1k

点赞数

分类专栏： java 文章标签： java byte mozilla exception string file

java 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最近一段时间作东西，总是因为要处理可能不通字符集的文件而烦心，虽然遭到一个程序库，好象是模仿Mozilla的一个Ｃ库使用ｊａｖａ实现的，但是普通的情况下使用这个库是不是太大了点．于是将GBK作为默认编码，主要判断utf-8，我实现了一个程序，在Ｗｉｎｄｏｗｓ下边如果使用记事本保存的ＴＸＴ文件带有ＢＯＭ当然很方便，但是如果没有ＢＯＭ的话，就只有通过文件中的字符的编码来判断了，经过几次简单的实验，发现尚且可用。ＪＡＶＡ源码如下，恳请指正：

static String get_ set(File file) {

String set = "GBK";

byte [] first3Bytes = new byte[3];

try {

boolean checked = false;

BufferedInputStream bis = new BufferedInputStream(new FileInputStream(file));

bis.mark(0);

int read = bis.read(first3Bytes, 0, 3);

if (read == -1) return set;

if (first3Bytes[0] == (byte)0xFF && first3Bytes[1] == (byte)0xFE) {

set = "UTF-16LE";

checked = true;

}

else if(first3Bytes[0] == (byte)0xFE && first3Bytes[1] == (byte)0xFF) {

set = "UTF-16BE";

checked = true;

}
else if(first3Bytes[0] == (byte)0xEF && first3Bytes[1] == (byte)0xBB && first3Bytes[2] == (byte)0xBF) {

set = "UTF-8";

checked = true;

}

bis.reset();

if (!checked) {

int len = 0;

int loc = 0;

while ((read = bis.read()) != -1) {

loc ++;

if (read >= 0xF0)

break;

if (0x80<=read && read <= 0xBF) //单独出现BF以下的，也算是GBK

break;

if (0xC0<=read && read <= 0xDF) {

read = bis.read();

if (0x80<= read && read <= 0xBF)//双字节 (0xC0 - 0xDF) (0x80 - 0xBF),也可能在GB编码内

continue;

else

break;

} else if (0xE0 <= read && read <= 0xEF) {//也有可能出错，但是几率较小
read = bis.read();

if (0x80<= read && read <= 0xBF) {
read = bis.read();

if (0x80<= read && read <= 0xBF) {
set = "UTF-8";

break;

} else

break;

} else

break;

}

}

System.out.println(loc + " " + Integer.toHexString(read));

}

bis.close();

} catch (Exception e) {

e.printStackTrace();

}

return set;

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。