1,首先下载 三个jar chardet.jar cpdetector_1.0.10.jar antlr-2.7.2.jar
2,
/*
* Copyright (C) 2015-2020 LianShi Inc.All Rights Reserved.
* Description:TODO
* @author diaowj:2016-5-4
*/
/**
*
*/
package com.enation.app.shop.core.action.backend;
import java.io.File;
import java.nio.charset.Charset;
import info.monitorenter.cpdetector.io.ASCIIDetector;
import info.monitorenter.cpdetector.io.CodepageDetectorProxy;
import info.monitorenter.cpdetector.io.JChardetFacade;
import info.monitorenter.cpdetector.io.UnicodeDetector;
/**
* 描述
* @author diaowj
*/
import info.monitorenter.cpdetector.io.ParsingDetector;
/**
* @author diaowj
*
*/
public class FileCharsetDetector {
/**
* 利用第三方开源包cpdetector获取文件编码格式.
* @param filePath
* @return
*/
public static String getFileEncode(File file) {
/**
*
* 1、cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法加进来,
* 如:ParsingDetector、 JChardetFacade、ASCIIDetector、UnicodeDetector.
* 2、detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则.
* 3、cpDetector是基于统计学原理的,不保证完全正确.
*
*/
CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
detector.add(new ParsingDetector(false));
detector.add(UnicodeDetector.getInstance());
detector.add(JChardetFacade.getInstance());//内部引用了 chardet.jar的类
detector.add(ASCIIDetector.getInstance());
Charset charset = null;
try {
charset = detector.detectCodepage(file.toURI().toURL());
} catch (Exception e) {
e.printStackTrace();
}
//默认为GBK
String charsetName = "GBK";
if (charset != null) {
if (charset.name().equals("US-ASCII")) {
charsetName = "ISO_8859_1";
} else{
charsetName = charset.name();
}
}
return charsetName;
}
public static void main(String[] args){
System.out.println(getFileEncode(new File("D:/商品抓取/碧云天/detail/SC0123-25mg.txt")));
}
}