总结实际应用中python数据处理时常用的一些类和函数,持续更新...
一,文件读取
pandas.read_csv('filename') 返回一个DataFrame。
二,数据定位,选中
DataFrame[ "label" or ["label1", "label2", ...] or [row1,row2,..] ] 选中指定标签列或指定行。
DataFrame["label"]==xxx 返回一列标签,长度与DataFrame[ label ]一样长度的DataFrame,各label下的值为条件语句的结果True/False。
DataFrame[DataFrame["label"]==xxx] 选中所有满足条件的行。
DataFrame.loc[指定行,label] 选中指定行和列的部分,指定行的方式可以为布尔语句或list, 指定列的方式只能是指定label。
DataFrame.iloc[指定行,index] 选中指定行和列的部分,指定行的方式可以为布尔语句或list, 指定列的方式只能是指定index。
DataFrame.head(n) 选中头n行。
DataFrame.isnull() 返回具有相同label的DataFrame,各label下的值为True:原DataFrame中该位置的值空缺,False:非空缺。
三, 统计
DataFrame.max/min/mean/median/...(axis, skipna) 返回沿指定轴的reduced DataFrame。
四,缺失值处理
DataFrame.drop() 删除有缺失值的行/列。
DataFrame.fillna() 用指定值填充。
DataFrame. interpolate() 用插值填充,插值方法可以通过method选择。
五,数据转换
DataFrame[label] = DataFrame[label].apply(lambda x: your function) 万能写法,对各label下的值应用指定函数。
例如将得到字符串长度 df["namelen"] = df["name"].apply(lambda x:len(x))。
六, 画图