判断文件格式

最新推荐文章于 2023-08-05 17:02:23 发布

wxy0408

最新推荐文章于 2023-08-05 17:02:23 发布

阅读量863

点赞数 1

文章标签：存储 byte 磁盘文档 file string

本文链接：https://blog.csdn.net/wxy0408/article/details/5323479

版权

首先阅读此文之前，最好阅读
http://hi.baidu.com/maml897/blog/item/324bf86369961ed4e6113a5c.html

http://hi.baidu.com/maml897/blog/item/fa5f0a7e1edef00129388ae2.html

其次还要知道一点常识，就是我们在记事本等一些文本工具中写的都是字符，没有谁会去写字节（可以写字节，但是要用具特殊的编辑器），但是其实，我们的写的是字符，但磁盘上真实存储的是字节。

这里就出现了转换的问题，当然，这些问题记事本本身会帮助我们解决。我们打开一个记事本，然后文件--另存为，你会发现有几种存储格式供您选择，
ANSI格式：就是ascii的格式
Unicode格式：采用国际通用的编码存储
Unicode big endian格式：这个和unicode有点区别，但我也不明太具体的不同
UTF-8：采用utf-8存储，看过上面的两篇文章，你会十分的了解这里介绍的编码。Utf-8，是unicode的一种实现方式。

例如我们在记事本里面输入“连通”两个字。

1.我们另存记事本的时候，采用unicode存储，那么虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实
8FDE（连） 901A （通），这个是规定的，unicode是国际上规定的，给世界上的每个字符分配的唯一编码。获取某个字符的unicode的方法，可以去网上查找，最简单的方法，就是打开word文档，输入字符，把光标移动到字符后面，按alt+x，word会自动把字符转换成unicode编码，这里呢我们也可以看到，用unicode存储汉字啊，每个汉字占用两个字节。

2.我们另存记事本的时候，采用utf-8存储，虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实已经变化了，这时候存储的是
E8 BF 9E （连）E9 80 9A（通）。这就是utf-8的存储的编码，至于utf-8为什么这样存储，你可以阅读上面的两篇文章来了解，可以看到，utf-8使用3个字节存储一个汉字。

另外我们还要知道的就是：电脑怎么区分一个记事本是用什么存储的呢？
换句话说，为什么我用unicode存储的8FDE（连） 901A （通），电脑就知道这是unicode编码，从而使用unicode解码，还原为“连通”呢？电脑又怎么知道E8 BF 9E （连）E9 80 9A（通）这是按照utf-8的存储方式存储的呢？

这里有一点标记，就是在存储字节的时候，记事本首先在最前面标明，这个记事本下面的存储格式是utf-8，还是unicode。

例如，

1.unicode存储“连通”。磁盘字节真实存储的其实是：

FF FE 8FDE 901A

前两个FF FE是标记，告诉电脑，这个文档的存储方式是unicode

2.utf-8存储“连通”。磁盘字节真实存储的其实是：

EF BB BF E8 BF 9E E9 80 9A

前三个EF BB BF 告诉电脑这个文档是utf-8存储的

根据不同编码的特点和标志,对一个文本文件判断编码方法如下
1 . UTF7 所有字节的内容不会大于127,也就是不大于&HFF
2 . UTF8 起始三个字节为"0xEF 0xBB 0xBF"
3 . UTF-16BE 起始三个字节为"0xFE 0xFF"
4 . UTF-16LE 起始三个字节为"0xFF 0xFE"

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;

public class FileEncodeReferee
{
    private File file;

    public FileEncodeReferee(File file)
    {
        this.file = file;
    }

    public FileEncodeReferee(String path)
    {
        file = new File(path);
    }

    public String getCharset()
    {
        File file = this.file;

        String charset = "GBK";
        byte[] first3Bytes = new byte[3];
        BufferedInputStream bis = null;
        try
        {
            //boolean checked = false;
            bis = new BufferedInputStream(new FileInputStream(file));
            bis.mark(0);
            int read = bis.read(first3Bytes, 0, 3);
            if (read == -1)
            {
                return charset;
            }
            if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE)
            {
                charset = "UTF-16LE";
                //checked = true;
            }
            else if (first3Bytes[0] == (byte) 0xFE
                    && first3Bytes[1] == (byte) 0xFF)
            {
                charset = "UTF-16BE";
                //checked = true;
            }
            else if (first3Bytes[0] == (byte) 0xEF
                    && first3Bytes[1] == (byte) 0xBB
                    && first3Bytes[2] == (byte) 0xBF)
            {
                charset = "UTF-8";
                //checked = true;
            }
            /** *//** */
            /** *//*******************************************************************
            * bis.reset(); if (!checked) { int loc = 0; while ((read =
            * bis.read()) != -1) { loc++; if (read >= 0xF0) { break; } if (0x80 <=
            * read && read <= 0xBF) // 单独出现BF以下的，也算是GBK { break; } if (0xC0 <=
            * read && read <= 0xDF) { read = bis.read(); if (0x80 <= read &&
            * read <= 0xBF)// 双字节 (0xC0 - 0xDF) { // (0x80 - 0xBF),也可能在GB编码内
            * continue; } else { break; } } else if (0xE0 <= read && read <=
            * 0xEF) { // 也有可能出错，但是几率较小 read = bis.read(); if (0x80 <= read &&
            * read <= 0xBF) { read = bis.read(); if (0x80 <= read && read <=
            * 0xBF) { charset = "UTF-8"; break; } else { break; } } else {
            * break; } } } System.out.println(loc + " " +
            * Integer.toHexString(read)); }
            ******************************************************************/
        }
        catch (Exception e)
        {
            e.printStackTrace();
        }
        finally
        {
            if (bis != null)
            {
                try
                {
                    bis.close();
                }
                catch (Exception ex)
                {
                    ex.printStackTrace();
                }
            }
        }
        return charset;
    }

    public static void main(String[] args)
    {
        FileEncodeReferee fer = new FileEncodeReferee("F://锁表1.sql");
        System.out.println(fer.getCharset());
    }
}

wxy0408

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
判断文件格式

首先阅读此文之前，最好阅读http://hi.baidu.com/maml897/blog/item/324bf86369961ed4e6113a5c.htmlhttp://hi.baidu.com/maml897/blog/item/fa5f0a7e1edef00129388ae2.html其次还要知道一点常识，就是我们在记事本等一些文本工具中写的都是字符，没有谁会去写字节（可以写字节
复制链接

扫一扫