自Windows 2000之后的操作系统在文件处理时默认编码採用Unicode。所以.NET文件的默认编码也是Unicode。除非另外指定,StreamReader的默认编码为Unicode,而不是当前系统的ANSI代码页。可是文档大部分还是以ANSI编码存储,中文文本使用的是GB2312,所以才造成中文乱码。
首先。先和大家一起了解一个东西—“系统的当前 ANSI 代码页编码”,假设你要处理ANSI且codepage为GB2312的文件。或者其它已知编码类型的I/O接口。那么最好直接写Encoding.GetEncoding(“GB2312”),由于Encoding.Default可能会变,而假设是一个全新的系统,则最好使用“Encoding.UTF8”,由于UTF8能够兼容世界上绝大多数语种。且效率较好,.NET默认也是用UTF8编码类型!
改动后代码例如以下: