【无标题】

一、前言

编码配置原则

tomcat路径下, \conf\logging.properties配置, 注意和控制台有关的Handler:java.util.logging.ConsoleHandler.encoding 改为第3步file.encoding输出的编码, 其它和文件有关的Handler全部UTF-8



因为一般web项目都是用到了tomcat, 因此tomcat也需要配置, 但实际上这个配置影响的只是tomcat相关的log文件
至于这个地方为什么网上大多都是 GBK? 请往下看, 下面有解释

正确配置log配置文件编码(重要)

下面是我的 log4j2.xml 部分示例配置, 如果你用的是log4j或logback或其它, 就参照相对的log框架的Appenders配置方法

这里我为每个Appender 配置一下输出编码, 和控制台有关的:Console:charset 改为*第3步file.encoding输出的编码*, 其它和文件有关的RollingFile全部设置为UTF-8**

  1. 源码文件用于项目组之间进行版本控制, 一般用UTF-8

  2. 日志文件可能会用于在各个平台上查看, 一般用UTF-8

  3. 控制台编码对接你的电脑系统编码, 一般电脑默认是GBK

    因为我的电脑是Window10默认编码是GBK, 所以我控制台配置主打GBK

  4. 我的编码配置

  5. IDEA中 idea64.exe.vmoptions 中的 -Dfile.encoding 和 -Dconsole.encoding 的相关配置全部去除掉, 使用系统默认GBK即可.

    这个使用系统默认即可, 没必要一乱码就改这个, 你的乱码往往不是这个原因.

  6. Run/Debug Configurations 中的 -Dfile.encoding 全部去除掉, 使用系统默认GBK即可.

    这个地方和上面 idea64.exe.vmoptions配置的都是VM这个参数, 这个比上面那个优先级更高,和上面的原因一样, JDK默认的已经很好了, 不需要配置这个

    这个地方会影响到控制台log日志, 以及文件日志编码, 但是未必一定要配置为UTF-8编码, 使用默认即可, 具体原因下面会讲

  7. 在你的项目中加上一句下面的代码, 看下打印的结果.

    System.out.println(System.getProperty("file.encoding"));
    
  8. 如果此时打印的是GBK, 那么下面的控制台默认编码就是GBK.如果此时打印的是UTF-8, 那么下面的控制台默认编码就是UTF-8.
  9. 终于到了我们最重要的环节, 我想说的是99%的乱码问题都是我们log配置文件没有配置好导致的, 结果大家不去改log配置文件, 偏偏盯上VM配置, 和tomcat配置.

  10. 我想告诉大家的是, 人家IDEA, tomcat, JDK的默认配置明明已经很好了, 我们应该去适应人家, 而不是修改人家的默认配置来适应我们五花八门的log配置文件,

    例如:
    A的log配置的有问题, 导致IDEA控制台乱码了, 他修改了IDEA, tomcat, JDK配置, 成功强迫IDEA, tomcat, JDK配置适应它的他配置, 最终成功正确输出日志,
    之后B的log配置的也有问题, 日志也乱码了, 然后他参照A的配置配置之后, 发现乱码问题依然没有解决,

  11. 要知道这个项目一个log配置, 那个项目一个log配置, 还有的log框架都不一样, 就算要强迫IDEA, tomcat, JDK适应我们的log配置文件, 由于我们的log配置文件不一样, 对应的被强迫的IDEA, tomcat, JDK配置也是不一样的

  12. 因此为了统一配置方式, IDEA, tomcat, JDK 配置使用默认即可, 由我们的log配置来适应它们.

另外说一下几个重要但是和乱码无关的配置

项目配置

这个地方挺重要的, 它控制着你整个项目java 文件编码, 配置文件编码, 新建文件编码.
但是它和你的控制台乱码是毫无关系的, 就算你将这里的编码配置改成UTF-3.1415926, 它也管不到你的日志乱码

可能有很多人对上面的配置不理解 请继续往下看.

二、乱码原因

首先我们要知道什么是乱码, 简而言之乱码就是文件打开的编码方式和文件本身编码方式不对, 注意这个地方有两个编码, 一个是文件本身的编码, 一个是用什么编码打开文件, 两个编码不对应, 就会出现乱码.

例如以下图片(控制台乱码)

关于这个 淇℃伅, 我可以明确告诉你们这个是UTF-8编码信息, 那为什么会显示成淇℃伅呢, 是因为控制台以 GBK的方式显示UTF-8编码.

图片中的控制台乱码中的日志一般有两种, 一个是 tomcat 输出日志到控制台, 另一个是 jvm 输出日志到控制台., 网上关于解决控制台乱码的方法大都是 修改 jvm 输出日志编码tomcat 输出日志编码, 但是却忽视了一个重要的编码, 那就是 控制台是以什么编码方式显示信息的呢?.

关于这点我可以告诉你们, 一般来说, 中国电脑系统默认编码是 GBK, IDEA 控制台显示的编码也是 GBK.

现在是不是已经明白了, 也就是说控制台以 GBK 的方式打开了 tomcat 和 JVM 输出的 UTF-8 编码, 那不乱码才怪.

三、深入分析乱码原理

1. 首先让我们列举下我们可能用到的编码有哪些

编码解释
GBK汉字内码扩展规范, 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1国际标准,window中国区默认编码
UTF-8针对Unicode的一种可变长度字符编码。兼容于ASCII编码, 国际比较通用的编码格式
  1. 在一些编译器里面也许有 ANSI 这种编码, 但实际上 ANSI 并不是特指某一种具体的编码, 这里以window为例, 假如你window电脑的区域和语言是中国, 那么“ANSI编码”实际是GBK编码。当你把它改成Korean(Korea)时,“ANSI编码”实际是EUC-KR编码,当你把它改成English(US)时,“ANSI编码”实际是ASCII编码.
  2. UTF-16 是JDK String 的存储编码, 但一般来说, 你只要不对char数组进行bit解析, 至少你在日志中一般不会碰到UTF-16的情况.
  3. 综上分析, 我们只需要研究下GBKUTF-8 两种编码格式即可.


 其次让我们分析下JAVA IDEA开发中涉及到的编码配置可能有哪些

列举所有可能出现的情况大概就以下几种, 先别管对不对, 只要可能的就先列举上

四、接下来让我们通过问答的方式大家明白几个解释起来比较散乱的常识

Q1: java 源代码会对乱码有影响吗

A: 源文件编码格式对乱码没什么影响

事实上不管你 java 源代码用的是什么编码格式, 编译成的 class 文件都是一样的, 而class文件编码貌似只有一种, 盲猜应该是UTF-16.

下面是我将内容同样而编码格式不同的两份源码编译成的两个class文件属性图, 通过文件算码发现两个class文件完全一致.

所以那些一乱码就乱改文件格式的行为实际上对乱码是没有什么帮助的

Q2: -Dfile.encoding到底是什么

在命令行中输入 java,在给出的提示中会出现 -D 的说明:

也就是说 -D 后面需要跟一个键值对,作用是设置一项系统属性
-Dfile.encoding=UTF-8 来说就是设置系统属性 file.encoding 为 UTF-8

Q3: file.encoding到底是有什么用

JVM 在运行时有一个属性 file.encoding, 这个 file.encoding 的值, 默认是系统编码(中国大陆window系统编码默认是GBK), 但是如果在JVM启动时加一个参数 -Dfile.encoding=UTF-8, 那么获取 file.encoding 的值就变成了UTF-8,

这个file.encoding可重要了, 它不仅控制着JVM运行时的编码格式, 还控制着 System.out.println() 打印到控制台的输出编码格式, 而且类似于IDEA这类IDE在显示控制台的时候还会通过 file.encoding 确定控制台用什么编码来解析日志.

在此说一个题外话, 例如在项目启动处, 例如Springboot启动处添加一句下面的代码对乱码时的解决是很有帮助的.

Q4: console.encoding 是什么

关于这个实际上可以在IDEA 官网看到这样的内容

Q5: log 日志配置对乱码有影响吗

A:关于log日志, 我只想说的就是, 日常90%的乱码都是因为log日志没有配置好而引起的.

绝大多数日志乱码情况下, 大家都是去改IDEA配置, 改 file.encoding, 但事实上是 IDEA 配置是没有问题的, 即便你的配置有些小问题, java语言和IDEA的智能性也能帮你显示成正确的编码, 然后大家的处理方式就成了 明明是Log日志配置不对, 却偏偏去改IDEA配置, 致使IDEA去适应log, 这样即使最后显示正确的编码, 实际上也是没有灵魂的.

  • 首先我想说明一点, log4j 实际上是有很多问题的, 例如就有版本问题和各种乱码问题.
  • 而且 log4j 比较恶心的是有些版本默认输出编码格式遵循 file.encoding, 还有的默认 系统编码格式, 也就是说, 有些垃圾版本即便你改了file.encoding=UTF-8也没用, 它依然遵循系统默认GBK编码.

而且都什么年代了, 别用log4j了, 换 log4j2 吧

Q6: log配置文件中编码如何配置(以log4j2 配置为例)

A: 以log4j2 配置为例, 如下图配置文件, 从上至下, 让我们一个个解析

首先第一个 encoding, 这个 encoding 跟你的乱码一般没什么关系的, 它管理的是 log 配置文件的编码格式, 也就是说它管理的是日志插件以什么格式去解析log4j2.xml, 这个配置文件.

知道Html吧, 第一个encoding和html文件标题头上面的 encoding 是类似的.

  1. 如上图中的2处和3处的<PatternLayout charset="GBK" pattern="%m%n" />, 这个配置管理的才是输出到你的控制台或者是文件的编码, 当然你也可以写成

  2. 注意这个配置是log4j2的配置, 如果你使用的是[log4j]或者是logback, 请在网上搜索相应的编码配置.

  3. 五、解决方式

    既然如此, 那么解决方案就很明确了, 无非两种

  4. (不推荐)修改 IDEA 控制台显示编码为 UTF-8, 以及 tomcat, jvm 输出的日志编码也修改为 UTF-8;

    • toncat 安装路径下的 conf/logging.properties 配置文件中的 java.util.logging.ConsoleHandler.encoding 改成 UTF-8;

    • jvm 启动参数 VM options 加个配置 -Dfile.encoding=UTF-8

  5. (推荐)直接使用 IDEA 控制台显示的 GBK 编码, 把 tomcat, jvm 输出的日志编码也全部改为 GBK;

    • toncat 安装路径下的 conf/logging.properties 配置文件中的 java.util.logging.ConsoleHandler.encoding 改成 GBK;

    • jvm 启动参数 VM options 加个配置 -Dfile.encoding=GBK.

      如果你没有加乱七八糟的配置的话, 这个 jvm -Dfile.encoding 启动参数直接置空, 就会自动使用系统默认编码 GBK

       

      我为什么推荐控制台使用 GBK

      上面解决方式中, 第二种反而是我比较推荐的一种方式, 那有人就会问了, 全部改成 UTF-8 编码不好吗?

      首先看下面的我的编码对接思想.

    • 第二种方法只要明白原理后, 实际上配置起来非常简单, 只要注意下控制台的编码是你电脑的默认编码即可.

    • 第一种解决方案的弊端

      第一种解决方案有什么弊端呢?

      首先即便你更改了 IDEA 的控制台编码, tomcat 什么的也全部改成 UTF-8, 那么当你单独运行 tomcat 的时候, tomcat 会使用系统控制台打印日志, 那么系统控制台使用的编码是什么呢, 如果你用的是中国的 window, 那么编码格式 9 成 9 是 GBK, 因为这是你的系统默认编码, 无论是 tomcat, jvm, IDEA, 或者是其它开发软件或者是非开发软件, 编码对标的首先是你的电脑系统编码格式.

      那么干脆点, 把整台电脑的编码全部改成 UTF-8 编码怎么样呢?

      这绝对是个大工程量, 这不是随随便便就改的完的, 其次这会遇到很多问题, 听我一步步分析.

      假如你在中国, 使用的是 window, 系统默认编码是 GBK.

    • 首先你过去的文件, 软件使用的是 GBK 编码. 你之前写的文档, 写的笔记, 以及使用其它软件保存的文件大多都是 GBK, 改起来很麻烦.

    • 其次网上的资源大多是 GBK, 或是一本小说, 一首歌的歌词, 或是游戏中文翻译包, 或者是视频字幕大多也都是 GBK, 这时候你碰到一个垃圾阅读器, 音乐视频播放器, 游戏软体, 它们不去识别文件 GBK 编码, 直接通过系统默认编码 UTF-8 打开, 然后就会出现乱码情况.

    • 然后因为你的同事, 你的朋友它们电脑上大多都是 GBK 编码格式, 假如你们使用 git 或 svn 管理文档, 你使用 UTF-8 格式, 你同事大多不修改配置默认使用 GBK, 然后你觉得这样好吗? 哪怕你的编辑器能自动识别编码, 你拉娶个gbk编码文件, 改动保存后, 再以utf-8格式推送出去… 然后一个文档项目就出现了两种编码. 甚至你做个设计流程图, 建个带中文注释的数据表, 同步到你朋友的电脑上, 打开, 卧槽, 乱码了.

    • 最后, GBK 存储汉字占用空间更小, 非开发工作没有必要使用UTF-8.

      end

      那么一个公司全部将电脑编码改成 UTF-8 不行吗?

      可以啊, 只要你们公司要求这样就可以, 只要电脑是公司统一发放的就可以, 只要你们公司同事都愿意改系统编码就可以, 只要整个电脑全部用来做开发, 不干其它事情就可以.

      至于为了开发让我去更改个人电脑系统编码改成 UTF-8, 那还是算了吧, 我个人的电脑难道仅仅是为了开发吗? 我还要做其它事情呢.

      而且就为了个控制台乱码更改系统编码至于吗? 第二种方式不香吗, GBK不香吗?

      当然具体怎么选择, 视个人情况而定

      附加技巧

      如何找出具体乱码原因

      想要知道你的乱码为什么乱码成那样, 请先在你的程序里面打印输出 0信1息2信息3,之后看下乱码情况是以下解码后显示的哪一种乱码, 应该就能找到你的乱码是如何乱码成你看到的样子的.



       

  • 43
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值