Python加载txt数据乱码问题升级版解决方法

  • 确定文件编码
    当不知道别人给的txt文件不知道是什么编码时,可以通过chardet模块来判断是属于什么编码chardet模块是第三方模块,需要手动安装
import chardet

data= open('111.TXT','rb').readline()         
#读取一行数据即可,不用全部读取,节省时间,'rb' 指定打开文件时用二进制方法

print(data)      #预览一下二进制数据
chardet.detect(data)     #判断编码
111.png

由输出结果可以判定,该txt是'GB2312'编码概率是99%,confidence: 0.99 ,所以可以确定该txt编码格式就是'GB2312'

  • 用判断出来的编码打开txt文件
f = open('111.TXT','r',encoding='gb2312')        #gb2312<gbk<gb18030
data=f.readlines()           #把数据读取到列表里面
f.close()
222.png

这时出现错误,为什么已经判断文件就是'GB2312',打开还是报错呢???
难道是判断的编码错误的,然后再去读取原txt文件,多读取了一些数据再判断是什么编码,结果还是'GB2312',这是为什么呢???

  • 设置忽略非法字符参数
    查看了open函数的参数后,里面有个errors参数,有三个级别可选,一般选择ignore即可

    333.png
  • 再次去打开文件
    设置errors='ignore'后,成功打开文件

f = open('111.TXT','r',encoding='gb2312',errors='ignore')        
#忽略非法字符  gb2312<gbk<gb18030

data=f.readlines()           #把数据读取到列表里面
f.close()

以上是自己在处理数据时遇到的一些阻碍,分享出来供大家参考,欢迎指正与交流

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据人阿多

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值