接手了一个新工程,碰到一个问题,就是使用java的File.listFiles 方法获取路径下的文件,问题是:获取的中文文件名是乱码!!!体现出来的症状是通过java的File API找不到文件。
最初就怀疑是环境问题,第一步排查环境变量:
# linux 的 proc 中导出环境变量
cat /proc/10643/environ| tr '\0' '\n'
注:自己替换一下进程ID
发现没LANG,就给配置加上了:
export LANG="en_US.UTF-8"
但是重启进程之后问题依旧!
接下来,翻看了java的File类的实现,发现是通过FileSystem对应的native方法实现的,这部分是C的代码,接下来就怀疑是"LC_XXX"的环境变量的干扰!
基于这个想法,接着加上了环境变量:
export LC_ALL="en_US.UTF-8"
重启之后,问题消失。
总结:
估计是启动进程的某个环节,引入了LC_XXX的某个配置,导致C的语言环境配置被变更,使获取的文件名的编码和预期不一致。解决方法比较粗暴,通过LC_ALL覆盖所有的配置。
附:
java 配置中文环境
-Dfile.encoding=UTF-8 -Duser.country=US -Duser.language=en
export LC_ALL="en_US.UTF-8"
export LANG="en_US.UTF-8"