Pandas库既可以操作索引,也可以操作数据。 对索引的操作也是对数据的操作。
数据的排序
1.sort_index()方法在指定的轴上根据索引进行排序,默认ascending=True即升序,默认在axis=0方向排序即纵向索引的排序。
Series.sort_value()方法在指定轴上根据数值进行排序,默认axis=0,ascending=True。对于DataFrame多了一个参数by :DataFrame.sort_values(by,axis=0,ascending=False) by是axis轴上的某个索引或索引列表。
注意:NaN空值统一放在排序末尾。
数据分析常用方法
1.适用于Series和DataFrame类型:
还有.describe()方法:针对0轴(各列)的统计汇总,可以用索引取元素。
pd.value_counts()常用来确认数据出现的频率,返回一个Series。
value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)
Parameters
----------
values : ndarray (1-d)
sort : boolean, default True
Sort by values
ascending : boolean, default False
Sort in ascending order(递增排序默认为default 即降序)
normalize: boolean, default False
If True then compute a relative histogram(规格化默认false 若为true则变为比例)
bins : integer, optional
Rather than count values, group them into half-open bins,
convenience for pd.cut, only works with numeric data
dropna : boolean, default True
Don’t include counts of NaN(默认不含缺失值)
count_classes = pd.value_counts(data[‘Class’], sort = True).sort_index()
2.仅适用于Series:
自动索引的好处就是方便切片。
累计统计分析函数
分别是对列的累加和,累乘,累计最小和最大。
数据的相关分析
协方差
判断两个事物X Y的相关性。
度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。
但是并不精确。下面介绍皮尔森相关系数:
Pearson相关系数
相关系数是用以反映变量之间相关关系密切程度的统计指标。
r就是相关系数,取值[-1,1] 。根据r的绝对值可判断相关性:
0.8~1.0:极强相关
0.6~0.8:强相关
0.4~0.6:中等程度相关
0.2~0.4:弱相关
0.0~0.2:极弱相关或无相关
——嵩天老师教学的学习笔记