记事本输入“联通”俩字，关闭再打开乱码

最新推荐文章于 2024-08-06 16:52:26 发布

whatday

最新推荐文章于 2024-08-06 16:52:26 发布

阅读量5.3k

点赞数 1

这是个很有意思的事情。
这里需要提一下ANSI，不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。然后，这些编码方式没有固定的格式，但是比如说UTF-8的格式是非常明显的，比如最高位是0，110，1110等等。在记事本保存操作中，windows默认保存的编码是ANSI（在中国是GB2312）。
这样联通这两个字的二进制内码是：（一个字占两个字节）

“联”ANSI编码是 0xC1AA 二进制排列是 1100 0001 1010 1010；

“通”ANSI编码是 0xCDA8 二进制排列是 1100 1101 1010 1000；

下图是utf-8的格式的部分截图

巧合的地方在于：“联通”这两个字的ANSI编码符合utf8编码模板。“联”的两个字节、“通”的两个个字节的起始部分的都是"110"和"10"，正好与UTF8规则里的两字节模板是一致的，于是再次打开记事本时，记事本就误认为这是一个UTF8编码的文件，让我们把第一个字节的110和第二个字节的10去掉，我们就得到了"00001 101010"，再把各位对齐，补上前导的0，就得到了"0000 0000 0110 1010"，不好意思，这是UNICODE的0x006A，也就是小写的字母"j"（用UltraEdit可以看到字母 j ），而之后的两字节用UTF8解码之后是0x0368，这个字符什么也不是，显示乱码

这就是只有"联通"两个字的文件没有办法在记事本里正常显示的原因。

可以认为：当文档中的所有字符的二进制编码在[C0 ≤ AA(第一个字节) ≤ DF] [80 ≤ BB(第二个字节) ≤ BF]时，记事本都无法确认文本的编码格式，就按照UTF-8的格式来显示。用“联通”来分析就是 C1在[C0,DF]之间，CD也在[C0,DF]，AA和A8在[80,BB]之间。

这么说，不只是“联通”二字造成了乱码，只要找两个字的gbk码值在[C0,DF]之间就行，貌似联通躺着也中枪，那么我们力挺联通吧，比如“力挺联通”四个字儿照样是乱码。呵呵，没辙儿了，开玩笑。其实你只要找到符合条件的汉字太容易了。

如何标明一个文件是utf8格式呢？这个标记是可选的：EF BB BF。比如，用windows自带的记事本创建一个utf8格式的文件，就会加上这个标记。但是，如果用ultraedit创建utf8文件，并不会加上这个标记。这个标记有个术语，叫做BOM（Byte Order Mark）。不带BOM的utf8文件和GB2312文件怎么区分呢？我也不知道。唯一能想到的办法就是：先用一种试，如果出现乱码，就用另一种再试