read_csv以及dataframe转csv遇到的问题

本文详细介绍了使用Pandas的read_csv和to_csv过程中可能遇到的问题,包括内容包含逗号的数据处理、编码一致性、中文编码问题,以及read_csv和to_csv的参数使用。强调了正确设置编码、分隔符和处理特殊字符的重要性。
摘要由CSDN通过智能技术生成

一、read_csv遇到的坑

1、对于内容包含‘,’的数据,写入csv:

写入csv文件的时候使用其他分隔符,“|”,“\t” ," " 等。不然read_csv 用 delimiter =“,”会报错
pandas.errors.ParserError: Error tokenizing data. C error: Expected 4 fields in line 225, saw 6

2、对于内容包含‘,’的数据的读取

如果在read_csv时使用delimiter =“,”,d库为了避免歧义,自动会加上双引号到该句子中。

比如句子:严重问题,且售后态度差,不解决问题
该句会被转为带引号的:“严重问题,且售后态度差,不解决问题”

3、 读写csv,用的编码方式要一致,不然会报错

to_csv()方法的encoding参数默认为"gbk",而read_csv()方法的encoding参数默认为"utf-8",所以最好的防止由于编码出错导致读取错误的方法就是在to_csv()和read_csv()方法同时显式地设置相同的encoding参数。

r = pd.read_csv("test1.csv", index=None, sep=',',encoding= 'utf8')
r.to_csv("test1.csv",
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值