关于读取文件遇到UnicodeDecodeError

2 篇文章 0 订阅

更改文件编码或更改译码方式

问题:

pandas在读取含有中文字符的csv文件时报错,因为python默认的编码方式是‘ utf-8’,而这个文件的编码是‘gbk’。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte

解决办法:

data=pd.read_table('province.csv', sep=',', names=cnames, encoding='gbk')

将译码方式设置为 encoding='gbk'

这里,sep=',',因为 csv 文件是逗号分割文件。names=cnames, cnames是设置的列的名字。

其他注意:

保存问件时,为了后续处理方便,可以统一用utf-8编码。

更改txt,csv文件的编码方式:

  • 用记事本打开,另存为,右下角选择编码方式。

  • sublime text3 也可以更改编码方式。可以将sublime text3的默认编码方式设置为utf-8。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值