背景:
Java项目中MVC各层代码有很多公共的部分,每次新建文件都是copy,效率太低,有时候还容易出错,于是在对比使用了几款代码模版工具之后,还是认为CodeSmith好用,但是CodeSmith根据代码模版输出的.java文件编码格式为有bom的UTF-8,本地Eclipse中跑没问题,但是每次提交文件到开发服务器后,集成构建的时候就会报错,报错原因是构建中用的ant不支持有bom的.java文件编译。
ant编译时的报错信息:
compile:
[javac] Compiling 997 source files to D:\Tomcat8.0\webapps\djbh\WEB-INF\classes
[javac] D:\02WorkSpaces\01DJBH\trunk\djbh\src\com\base\model\sys\param\SysVersionParameter.java:1: 错误: 非法字符: \65279
[javac] ?package com.jzt.model.sys.param;
[javac] ^
[javac] D:\02WorkSpaces\01DJBH\trunk\djbh\src\com\base\model\sys\param\SysVersionParameter.java:1: 错误: 需要class, interface或enum
[javac] ?package com.jzt.model.sys.param;
[javac] ^
[javac] 2 个错误
原因
- 根据上面的报错内容可以知道是文件编码出了问题,文件编码格式为UTF-8是可以确定的,从文件前多了个字符基本上可以确定是带bom的UTF-8搞的鬼。
分析
一番搜索下来,连专治各种编程疑难杂症的stackoverflow上都没找到类似的问题和解决办法,那就只能从代码模版本身来排查问题了。
- .cst模版文件头部已经使用Encoding指定了模版文件本身的编码格式,ResponseEncoding指定了输出的代码文件的编码格式,但是却不知道是带bom的UTF-8,还是无bom的UTF-8,而是否带bom的UTF-8在声明中是没法指定的,问题应该不在这:
<%@ Template Language="C#" TargetLanguage="Java" Encoding="UTF-8" ResponseEncoding="UTF-8"%>
- 输出文件到指定目录是通过在模版文件中写C#代码实现的,在StreamWriter的构造方法中指定了编码格式:
FileStream fs = new FileStream(fileName, FileMode.Create, FileAccess.Write);
StreamWriter sw = new StreamWriter(fs, System.Text.Encoding.UTF8);
- 网上查了下StreamWriter和带bom的UTF-8之间的关系,终于发现问题所在,将输出文件的代码修改为如下所示,即使用UTF8Encoding类的构造方法来new一个编码格式对象,问题解决:
FileStream fs = new FileStream(fileName, FileMode.Create, FileAccess.Write);
StreamWriter sw = new StreamWriter(fs, new System.Text.UTF8Encoding(false));
总结
微软的官方API文档中,对UTF8Encoding (Boolean)构造方法的说明:
初始化 UTF8Encoding 类的新实例。参数指定是否提供一个 Unicode 字节顺序标记。由 .NET Compact Framework 支持。
即通过这种方法指定了文件编码格式为无bom的UTF-8,也就是解决问题的关键在于new StreamWriter类实例的时候,通过new System.Text.UTF8Encoding(false)指定为无bom的UTF-8:
StreamWriter sw = new StreamWriter(fs, new System.Text.UTF8Encoding(false));
参考文章:
http://blog.okbase.net/csharp/archive/4452.html
http://blog.163.com/yanfeng_0/blog/static/6200414520096303911545