我为一个使用pandas 的先手,在使用pandas 时总是出现各种问题,向大家分析一下。
1:首先是数据的读入
import pandas as pd
score_df=pd.read_csv("./学生成绩单.csv")
当读入大量数据是需要分批读入,防止内存不够
使用chunksize 来控制每次读入数据的行数
score_df=pd.read_csv("./学生成绩单.csv",chunksize=10000)
2:数据文件中空值的处理
由于dataframe中的空值与python的数据类型None不同,用可能是empty,nan等形式,在需要及进行判断是比较麻烦
可以将其统一转化为None,处理起来则要方便很多。
score_df=score_df.where(score_df.notnull(),None) #将空值同意转化为None
后面打算写一系列pandas 处理数据的系列,码字不易大家带那个赞哈。
pandas 数据分析系列欢迎大家阅读和提意见!!!
https://blog.csdn.net/yangheng1/article/details/108179976