python写入csv文件的中文乱码问题

python报错 专栏收录该内容
1 篇文章 0 订阅

中文乱码

今天练习爬虫,突然心血来潮想要顺便回顾一下csv,运行保存完之后我傻了,全是中文乱码。所以这次解决完后在抓紧记在小本本上~~
好啦,言归正传,先贴代码

with open('test.csv','w',encoding='utf-8',newline='')as csvfile:
    writor = csv.writer(csvfile)
    new_list = list(x.items())    #把字典转为列表
    for i in new_list:
        writor.writerow(i)`

在vscode中显示也很正常
在这里插入图片描述
但是我打开csv文件时,啪一下就变乱码了,很快啊
在这里插入图片描述
这就有点不讲码德了,我说怎么回事?这么一个问题来为难我一个刚入门的小白,这好吗?

解决方案

后来问了问同学,把utf-8改成utf-8-sig就解决了

with open('test.csv','w',encoding='utf-8-sig',newline='')as csvfile:
    writor = csv.writer(csvfile)
    new_list = list(x.items())
    for i in new_list:
        print(i)
        writor.writerow(i)

在这里插入图片描述

utf-8和utf-8-sig

原来是Excel 在读取 csv 文件的时候是通过读取文件头上的 BOM 来识别编码的,如果文件头无 BOM 信息,则默认按照 Unicode 编码读取。而csv默认是ANSI.当我们使用 utf-8 编码来生成 csv 文件的时候,并没有生成 BOM 信息,Excel 就会自动按照 Unicode 编码读取,就会出现乱码问题了。

我这可不是乱说的啊,明显是有备而来(附上两者区别):
1、”utf-8“ 是以字节为编码单元,它的字节顺序在所有系统中都是一样的,没有字节序问题,所以这个不需要BOM,因此用"utf-8"编码方式读取带有BOM的文件时,它会把BOM当做是文件内容来处理,导致出现上述错误

2、“uft-8-sig"中sig全拼为 signature 也就是"带有签名的utf-8”, 多以"utf-8-sig"读取带有BOM的"utf-8文件时"会把BOM单独处理,与文本内容隔离开,这就是我们需要的结果了.

  • 6
    点赞
  • 3
    评论
  • 10
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值