读取文本文件，及易出现的隐藏错误（Bom）

最新推荐文章于 2022-01-17 10:41:52 发布

逆流之路

最新推荐文章于 2022-01-17 10:41:52 发布

阅读量242

点赞数

分类专栏：每日打卡文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44716687/article/details/106206023

版权

每日打卡专栏收录该内容

8 篇文章 0 订阅

订阅专栏

目录

先放总结：

常用解决办法：

先放总结：

对于报错：SyntaxError: Non-UTF-8 code starting with '\xe6' in file其原因如下

在UTF-8编码的文件里，当文本中文较多时开头会有一个隐藏字符BOM（b'\xef\xbb\xbf'）（微软在UTF-8中使用BOM（Byte order mark）是因为这样可以将UTF-8和ASCII等编码明确区分开）

常用解决办法：

1.切片法

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

2.声明法

import codecs

with open("xx.txt",'r','utf-8-sig') as file:

line = file.readlines()

注意

敲代码时开头最好写明编码方式：# coding=utf-8（告诉python解释器要按照utf-8编码的方式来读取程序，不然及容易报错）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读取文本文件，及易出现的隐藏错误（Bom）

目录先放总结：常用解决办法：注意先放总结：对于报错：SyntaxError: Non-UTF-8 code starting with '\xe6' in file其原因如下在UTF-8编码的文件里，当文本中文较多时开头会有一个隐藏字符BOM（b'\xef\xbb\xbf'）（微软在UTF-8中使用BOM（Byte order mark）是因为这样可以将UTF-8和ASCII等编码明确区分开）常用解决办法：1.切片法import codecsdata =...
复制链接

扫一扫

专栏目录

逆流之路 CSDN认证博客专家 CSDN认证企业博客

码龄5年

16: 原创

75万+: 周排名

78万+: 总排名

3万+: 访问

: 等级

339: 积分

10: 粉丝

28: 获赞

4: 评论

67: 收藏

私信

关注

热门文章

分类专栏

最新评论

三种方式解决四舍五入问题（python）
麦口胡: 第一种方法，有缺陷。当第三位小数小于5时，也会造成进位。比如5.554四舍五入后应为5.54。用此算法5.554*100=555.4+0.5=555.9/100=5.559 再用python的format到2位小数就会变成5.56
反反爬须知：AES加密和解密
WaniuZhang_ITBoy: 大佬，你好，我用python写的CBC加密，加密的结果长度是216，和js这种方式加密出来的长度172不一致，是什么原因
python里你有所不知的print语句和flush()方法（内含详细解析及新手易错点）
m0_73028013: 学到了！学到了！是不是这个意思: Ture是每执行一次就会写入文件 Flase是先放入缓存区，当执行close（）关闭文件的时候才会写入。但我不太明白数据这么会丢失的？
python里你有所不知的print语句和flush()方法（内含详细解析及新手易错点）
jcgysh: 没看明白尤其你学霸作业这个不过点赞了有时间再读读呵呵

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。