移除UTF-8文件頭的BOM

Preface:
BOM ( byte-order mark) 是被用來當做標示檔案是以UTF-8、UTF-16或UTF-32編碼的記號. 在 UTF-8 文件的BOM中,長度為3個字節,BOM的用意就是告訴編輯器當前文件採​​用何種編碼,方便編輯器識別。但是在Eclipse中,帶有BOM的java源碼生成javadoc時卻會出現如下錯誤:
E:/workspace/Test/src/express/ExpType.java: 1 :非法字符: / 65279
package express;
^

一個個修改是個辦法,但是面對幾百上幾千個的源文件,一個個去修改決不是程序員的作風.

Solution:
下面代碼,能夠批量移除UTF-8的BOM,其實質就是刪除帶有BOM信息的UTF-8文件的前三字節,代碼如下:
  1. import  java.io.File;    
  2. import  java.io.IOException;    
  3. import  java.util.Collection;    
  4. import  org.apache.commons.io.DirectoryWalker;    
  5. import  org.apache.commons.io.FileUtils;    
  6. import  org.apache.commons.io.FilenameUtils;    
  7. @SuppressWarnings ( "rawtypes" )    
  8. public  class  Utf8BomRemover  extends  DirectoryWalker {    
  9.     public  static  void  main(String[] args)  throws  IOException {    
  10.         //刪除指定文件夾下(含子文件夾)所有java文件的BOM,若構造器中參數為null則刪除所有文件頭部BOM    
  11.         new  Utf8BomRemover( "java" ).start( new  File( "E:/workspace/Test/src" ));    
  12.     }    
  13.     private  String extension =  null ;    
  14.     public  Utf8BomRemover(String extension) {    
  15.         super ();    
  16.         this .extension = extension;    
  17.     }    
  18.     /** 啟動對某個文件夾的篩選 */    
  19.     @SuppressWarnings ( "unchecked" )    
  20.     public  void  start(File rootDir)  throws  IOException {    
  21.         walk(rootDir,  null );    
  22.     }    
  23.     protected  void  handleFile(File file,  int  depth, Collection results)  throws  IOException {    
  24.         if  (extension ==  null    
  25.                 || extension.equalsIgnoreCase(FilenameUtils.getExtension(file.toString()))) {    
  26.             //調用具體業務邏輯,其實這裡不僅可以實現刪除BOM,還可以做很多想幹的事情。    
  27.             remove(file);    
  28.         }    
  29.     }    
  30.     /** 移除UTF-8的BOM */    
  31.     private  void  remove(File file)  throws  IOException {    
  32.         byte [] bs = FileUtils.readFileToByteArray(file);    
  33.         if  (bs[ 0 ] == - 17  && bs[ 1 ] == - 69  && bs[ 2 ] == - 65 ) {    
  34.             byte [] nbs =  new  byte [bs.length -  3 ];    
  35.             System.arraycopy(bs,  3 , nbs,  0 , nbs.length);    
  36.             FileUtils.writeByteArrayToFile(file, nbs);    
  37.             System.out.println( "Remove BOM: "  + file);    
  38.         }    
  39.     }    
  40. }   
在這個類中能把指定文件夾中指定後綴名的文件統一去除BOM,而整個程序源碼中沒有看到用遞歸算法,而是使用了 apache commons-io ,其實遞歸算法就在DirectoryWalker 類中,實現者無需關心算法,而是關注於業務。同時,這裡給一個提醒,commons-io最新版是2.0,修改了1.4中的一些bug,其中有一處就是DirectoryWalker 類,因此建議使用最新版的commons-io.
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值