几个pandas数据处理中的常用操作

最新推荐文章于 2024-07-29 15:47:58 发布

扎克伯哥

最新推荐文章于 2024-07-29 15:47:58 发布

阅读量3.3w

点赞数 13

分类专栏： python 数据处理机器学习

本文链接：https://blog.csdn.net/zhaohansk/article/details/50480408

版权

26 篇文章 0 订阅

订阅专栏

13 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

记几个常用的函数，具体用法去官网查啦

import的惯例：

import pandas as pd
from pandas import Series,DataFrame

显示一些数字特征：

df.describe()#显示很多，均值，标准差，分位数等等
df.quantile(0.75)#显示3/4分位数
df.std()#显示标准差，样本标准差？

读取存在csv中的dataframe,，还有把Series,DataFrame存为csv：

pd.read_table()#读table分割的，但是有时不管用= =，还不清楚为什么
pd.read_csv()
df.to_csv('xx.csv')

操作一列数据，这是把num列的格式转为int

df['num'] = df['num'].apply(lambda x:int(x))

去重，直接调用只是返回一个视图，要赋值才能覆盖原来的列，pandas许多时候都是这种情况

df['num'].drop_duplicates()

重要的groupby，下面这条的意思是取每个星期week()的总数(相同week的count之和(sum))，具体现在还不清楚，只会算个平均数求个和：

week_count = df['count'].groupby(df['week']).sum()

groupby([df['1'],df[]'2'])后会出现层次化索引，把层次化索引重新安排到DataFrame中需要使用unstack()方法，想回去就用stack()

df.unstack()

df.stack()

填充缺失值NaN，这里是填充成0：

df.fillna(value=0)

画图用plot，想画多个图可以用matplotlib弄个plt.subplot(x,x,x)之后画，画图时用kind选择画什么图，例如:bar:柱状图，pie饼图

    plt.subplot(1,1,1)
    df[index].plot(kind='bar',title=index)

刚看两天，现在常用的也就这些。。

pandas把数据存到内存里，很多变量可能会有memoryerror

pandas快速入门:http://www.cnblogs.com/chaosimple/p/4153083.html

还有本书叫《利用Python进行数据分析》

主要的是官方文档了，虽然看不懂，感觉能用就用一下

关注

专栏目录