UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb0 in position 5: invalid start byte

最新推荐文章于 2024-06-07 00:11:02 发布

木下瞳

最新推荐文章于 2024-06-07 00:11:02 发布

阅读量976

点赞数

文章标签：编码错误

本文链接：https://blog.csdn.net/zjkpy_5/article/details/111176970

版权

本文讲述了在处理CSV文件时遇到的编码错误，如'gbk'和'utf-8'混用。通过使用错误忽略模式读取并清理混杂编码的数据，解决了编码问题。关键步骤包括使用'ignore'选项读取文件和另存为纯GBK编码的文件以避免混淆。

摘要由CSDN通过智能技术生成

UnicodeDecodeError: 'gbk' codec can't decode byte 0xfa in position 4669: illegal multibyte sequence

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 5: invalid start byte

with open('进线汇总20201211.csv',encoding='utf8') as f:
    t = f.readlines()
    print(t)

运行上述代码，在编码设置中，无论切换为 utf8，还是 gbk 都报错，原因可能是文件中 gbk，utf8 混用，还有一种是源文件编码是带有 BOM 的 utf8.

解决：

这样以逗号分隔的前提是，假如一行数据中，每一个字段的值中都不包含逗号的，如果有一个字段包含了逗号，那原本分隔的列数假如是 10，会变成 11 列，与源数据格式冲突了

打开文件，读取时，忽略不能解码的，读取成功后，另存为新的文件，新的文件就不会存在编码问题了，可运行下面代码

import csv
with open('进线汇总20201211.csv',encoding='gbk',errors='ignore') as f:
    t = f.readlines()
with open('进线汇总20201211_clear.csv','w+',encoding='gbk',newline='') as f: 
    wr = csv.writer(f)
    for l in t:
        l = l.split(',')
        wr.writerow(l)

木下瞳

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb0 in position 5: invalid start byte

UnicodeDecodeError: 'gbk' codec can't decode byte 0xfa in position 4669: illegal multibyte sequenceUnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 5: invalid start bytewith open('进线汇总20201211.csv',encoding='utf8') as f: t = f.
复制链接

扫一扫