记几个常用的函数,具体用法去官网查啦
import的惯例:
import pandas as pd
from pandas import Series,DataFrame
显示一些数字特征:
df.describe()#显示很多,均值,标准差,分位数等等
df.quantile(0.75)#显示3/4分位数
df.std()#显示标准差,样本标准差?
读取存在csv中的dataframe,,还有把Series,DataFrame存为csv:
操作一列数据,这是把num列的格式转为intpd.read_table()#读table分割的,但是有时不管用= =,还不清楚为什么
pd.read_csv()
df.to_csv('xx.csv')
df['num'] = df['num'].apply(lambda x:int(x))
去重,直接调用只是返回一个视图,要赋值才能覆盖原来的列,pandas许多时候都是这种情况
df['num'].drop_duplicates()
重要的groupby,下面这条的意思是取每个星期week()的总数(相同week的count之和(sum)),具体现在还不清楚,只会算个平均数求个和:
week_count = df['count'].groupby(df['week']).sum()
groupby([df['1'],df[]'2'])后会出现层次化索引,把层次化索引重新安排到DataFrame中需要使用unstack()方法,想回去就用stack()
df.unstack()
df.stack()
填充缺失值NaN,这里是填充成0:
df.fillna(value=0)
画图用plot,想画多个图可以用matplotlib弄个plt.subplot(x,x,x)之后画,画图时用kind选择画什么图,例如:bar:柱状图,pie饼图
plt.subplot(1,1,1)
df[index].plot(kind='bar',title=index)
刚看两天,现在常用的也就这些。。
pandas把数据存到内存里,很多变量可能会有memoryerror
pandas快速入门:http://www.cnblogs.com/chaosimple/p/4153083.html
还有本书叫《利用Python进行数据分析》
主要的是官方文档了,虽然看不懂,感觉能用就用一下