判断文件格式

首先阅读此文之前,最好阅读
http://hi.baidu.com/maml897/blog/item/324bf86369961ed4e6113a5c.html

http://hi.baidu.com/maml897/blog/item/fa5f0a7e1edef00129388ae2.html

其次还要知道一点常识,就是我们在记事本等一些文本工具中 写的都是字符,没有谁会去写字节(可以写字节,但是要用具特殊的编辑器),但是其实,我们的写的是字符,但磁盘上真实存储的是字节。

这里就出现了转换的问题,当然,这些问题记事本本身会帮助我们解决。我们打开一个记事本,然后文件--另存为,你会发现有几种存储格式供您选择,
ANSI格式:就是ascii的格式
Unicode格式:采用国际通用的编码存储
Unicode big endian格式:这个和unicode有点区别,但我也不明太具体的不同
UTF-8:采用utf-8存储,看过上面的两篇文章,你会十分的了解这里介绍的编码。Utf-8,是unicode的一种实现方式。

例如我们在记事本里面输入“连通”两个字。

1.我们另存记事本的时候,采用unicode存储,那么虽然我们看到的字符还是“连通”,但是其实存储在磁盘上的字节 确实
8FDE(连) 901A (通),这个是规定的,unicode是国际上规定的,给世界上的每个字符分配的唯一编码。获取某个字符的unicode的方法,可以去网上查找,最简单的方法,就是打开word文档,输入字符,把光标移动到字符后面,按alt+x,word会自动把字符转换成unicode编码,这里呢我们也可以看到,用unicode存储汉字啊,每个汉字占用两个字节。

2.我们另存记事本的时候,采用utf-8存储,虽然我们看到的字符还是“连通”,但是其实存储在磁盘上的字节 确实已经变化了,这时候存储的是
E8 BF 9E (连)E9 80 9A(通)。这就是utf-8的存储的编码,至于utf-8为什么这样存储,你可以阅读上面的两篇文章来了解,可以看到,utf-8使用3个字节存储一个汉字。

另外我们还要知道的就是:电脑怎么区分一个记事本是用什么存储的呢?
换句话说,为什么我用unicode存储的8FDE(连) 901A (通),电脑就知道这是unicode编码,从而使用unicode解码,还原为“连通”呢?电脑又怎么知道E8 BF 9E (连)E9 80 9A(通)这是按照utf-8的存储方式存储的呢?

这里有一点标记,就是在存储字节的时候,记事本首先在最前面 标明,这个记事本下面的存储格式 是utf-8,还是unicode。

例如,

1.unicode存储“连通”。磁盘字节真实存储的其实是:

FF FE 8FDE 901A

前两个FF FE是标记,告诉电脑,这个文档的存储方式是unicode

2.utf-8存储“连通”。磁盘字节真实存储的其实是:

EF BB BF E8 BF 9E E9 80 9A

前三个EF BB BF 告诉电脑 这个文档是utf-8存储的

根据不同编码的特点和标志,对一个文本文件判断编码方法如下
1  .  UTF7  所有字节的内容不会大于127,也就是不大于&HFF
2  .  UTF8  起始三个字节为"0xEF 0xBB 0xBF"
3  .  UTF-16BE 起始三个字节为"0xFE  0xFF"
4  .  UTF-16LE 起始三个字节为"0xFF  0xFE"

 

 

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;

public class FileEncodeReferee
{
    
private File file;
    
    
public FileEncodeReferee(File file)
    
{
        
this.file = file;
    }

    
    
public FileEncodeReferee(String path)
    
{
        file 
= new File(path);
    }

    
    
public String getCharset()
    
{
        File file 
= this.file;
        
        String charset 
= "GBK";
        
byte[] first3Bytes = new byte[3];
        BufferedInputStream bis 
= null;
        
try
        
{
            
//boolean checked = false;
            bis = new BufferedInputStream(new FileInputStream(file));
            bis.mark(
0);
            
int read = bis.read(first3Bytes, 03);
            
if (read == -1)
            
{
                
return charset;
            }

            
if (first3Bytes[0== (byte0xFF && first3Bytes[1== (byte0xFE)
            
{
                charset 
= "UTF-16LE";
                
//checked = true;
            }

            
else if (first3Bytes[0== (byte0xFE
                    
&& first3Bytes[1== (byte0xFF)
            
{
                charset 
= "UTF-16BE";
                
//checked = true;
            }

            
else if (first3Bytes[0== (byte0xEF
                    
&& first3Bytes[1== (byte0xBB
                    
&& first3Bytes[2== (byte0xBF)
            
{
                charset 
= "UTF-8";
                
//checked = true;
            }

            
/** */
            
/*******************************************************************
            * bis.reset(); if (!checked) { int loc = 0; while ((read =
            * bis.read()) != -1) { loc++; if (read >= 0xF0) { break; } if (0x80 <=
            * read && read <= 0xBF) // 单独出现BF以下的,也算是GBK { break; } if (0xC0 <=
            * read && read <= 0xDF) { read = bis.read(); if (0x80 <= read &&
            * read <= 0xBF)// 双字节 (0xC0 - 0xDF) { // (0x80 - 0xBF),也可能在GB编码内
            * continue; } else { break; } } else if (0xE0 <= read && read <=
            * 0xEF) { // 也有可能出错,但是几率较小 read = bis.read(); if (0x80 <= read &&
            * read <= 0xBF) { read = bis.read(); if (0x80 <= read && read <=
            * 0xBF) { charset = "UTF-8"; break; } else { break; } } else {
            * break; } } } System.out.println(loc + " " +
            * Integer.toHexString(read)); }
            *****************************************************************
*/

        }

        
catch (Exception e)
        
{
            e.printStackTrace();
        }

        
finally
        
{
            
if (bis != null)
            
{
                
try
                
{
                    bis.close();
                }

                
catch (Exception ex)
                
{
                    ex.printStackTrace();
                }

            }

        }

        
return charset;
    }

    
    
public static void main(String[] args)
    
{
        FileEncodeReferee fer 
= new FileEncodeReferee("F://锁表1.sql");
        System.out.println(fer.getCharset());
    }

}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您好!要判断MultipartFile(Spring框架中的文件上传类)的文件格式,您可以使用文件的扩展名或者文件的内容来进行判断。 方法一:通过文件扩展名判断 您可以使用`MultipartFile`对象的`getOriginalFilename()`方法获取文件名称,然后根据文件名称的扩展名判断文件格式。例如,假设您要判断文件是否为图片格式(如jpg、png等),可以使用以下代码: ```java MultipartFile file = ...; // 获取到的MultipartFile对象 String fileName = file.getOriginalFilename(); if (fileName != null) { String fileExtension = fileName.substring(fileName.lastIndexOf(".") + 1); if (fileExtension.equalsIgnoreCase("jpg") || fileExtension.equalsIgnoreCase("png")) { // 文件格式为图片格式 } else { // 文件格式不是图片格式 } } ``` 方法二:通过文件内容判断 有时候,文件的扩展名可能被伪造,此时可以通过检查文件的内容来判断文件格式。例如,假设您要判断文件是否为PDF格式,可以使用以下代码: ```java MultipartFile file = ...; // 获取到的MultipartFile对象 byte[] fileContent = file.getBytes(); if (fileContent != null && fileContent.length > 4) { String fileSignature = String.format("%02X%02X%02X%02X", fileContent[0], fileContent[1], fileContent[2], fileContent[3]); if (fileSignature.equals("25504446")) { // 文件格式为PDF格式 } else { // 文件格式不是PDF格式 } } ``` 以上是两种常见的判断文件格式的方法,根据您的实际需求选择适合的方法即可。希望对您有帮助!如有任何疑问,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值