读取,分割,分页读取UTF-8文件时,避免中文乱码

思想是,判断最后一个读取的字节是不是汉字中的字节。

 汉字在UTF-8中是3字节,其编码方式是1110xxxx 10xxxxxx 10xxxxxx

        /// <summary>
        /// 一个汉字缺少几个字节
        /// 汉字在UTF-8中是3字节,所以其编码方式是1110xxxx 10xxxxxx 10xxxxxx
        /// </summary>
        /// <param name="last">最后一个字节</param>
        /// <param name="before">倒数第二个字节</param>
        /// <returns>汉字缺少几个字节</returns>
        private static int MissNum(int last, int before)
        {
            if (last >= 0 && last <= 127)
            {
                //128 个 ASCII 字符
                //不属于汉字
                return 0;
            }
            if (last >= 224 && last <= 239)
            {
                //属于汉字的第一个字节
                //剩余两个字节
                return 2;
            }
            if (last >= 128 && last <= 191 && before >= 224 && before <= 239)
            {
                //属于汉字的第二个字节
                //剩余一个字节
                return 1;
            }
            return 0;
        }

调用这个方法,把缺少的字节重新读取,见代码

            //当前字节
            long cur = 0;
            FileStream fs = new FileStream("E:/Log/abc.txt", FileMode.Open);
            byte[] buf = new byte[2048];
            //设置文件读取开始的偏移地址
            cur = 0;
            fs.Position = cur;
            //成功读取的字节数
            int n = 0;
            //未读取到结尾
            while (fs.Position <= fs.Length)
            {
                //读取文件,空两个字节以备后患
                n = fs.Read(buf, 0, 2046);
                //判断汉字还差多少字节
                int miss = MissNum((int)buf[n - 1], (int)buf[n - 2]);
                for (int i = 0; i < miss; i++)
                {
                    fs.Read(buf, n, 1);
                    n++;
                }
                string s = System.Text.Encoding.UTF8.GetString(buf, 0, n);
                Console.WriteLine(s);
                Console.ReadKey();
            }
代码中未实现:如果不是从第一个字节读取的,有可能第一个字会出现乱码。理论一样。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值