pandas的常用数据类型:
1.Series 一维,带标签数组
2.DataFrame 二维,Series容器
series创建
t = pd.Series(np.arange(10),index = list.ascii_uppercase[:10]))
A 0
B 1
C 2
D 3
E 4
F 5
G 6
H 7
J 8
K 9
pandas之Series切片和索引:
pandas之Series的索引和值:
pandas读取外部数据:
pd.read_csv
pandas之DataFrame:
DataFrame对象既有行索引,又有列索引
行索引,表明不同行,横向索引,叫index,0轴,axis=0
列索引,表名不同列,纵向索引,叫columns,1轴,axis=1
pandas之loc :
还有更多的经过pandas优化过的选择方式:
赋值更改数据的过程:
pandas之布尔索引
缺失数据的处理:
判断数据是否为NaN:pd.isnull(df),pd.notnull(df)
处理方式1:删除NaN所在的行列dropna (axis=0, how='any', inplace=False)
处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)
处理为0的数据:t[t==0]=np.nan
当然并不是每次为0的数据都需要处理
计算平均值等情况,nan是不参与计算的,但是0会
pandas常用统计方法