Pandas用法总结(二)

Pandas库既可以操作索引,也可以操作数据。 对索引的操作也是对数据的操作。
数据的排序
1.sort_index()方法在指定的轴上根据索引进行排序,默认ascending=True即升序,默认在axis=0方向排序即纵向索引的排序。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Series.sort_value()方法在指定轴上根据数值进行排序,默认axis=0,ascending=True。对于DataFrame多了一个参数by :DataFrame.sort_values(by,axis=0,ascending=False) by是axis轴上的某个索引或索引列表。
在这里插入图片描述

在这里插入图片描述

注意:NaN空值统一放在排序末尾。

数据分析常用方法
1.适用于Series和DataFrame类型:

在这里插入图片描述

还有.describe()方法:针对0轴(各列)的统计汇总,可以用索引取元素。

pd.value_counts()常用来确认数据出现的频率,返回一个Series。
value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)
Parameters
----------
values : ndarray (1-d)
sort : boolean, default True
Sort by values
ascending : boolean, default False
Sort in ascending order(递增排序默认为default 即降序)
normalize: boolean, default False
If True then compute a relative histogram(规格化默认false 若为true则变为比例)
bins : integer, optional
Rather than count values, group them into half-open bins,
convenience for pd.cut, only works with numeric data
dropna : boolean, default True
Don’t include counts of NaN(默认不含缺失值)

count_classes = pd.value_counts(data[‘Class’], sort = True).sort_index()

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2.仅适用于Series:
在这里插入图片描述

自动索引的好处就是方便切片。

累计统计分析函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分别是对列的累加和,累乘,累计最小和最大。

数据的相关分析
协方差
判断两个事物X Y的相关性。
在这里插入图片描述
度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。
但是并不精确。下面介绍皮尔森相关系数:
Pearson相关系数
在这里插入图片描述相关系数是用以反映变量之间相关关系密切程度的统计指标。
r就是相关系数,取值[-1,1] 。根据r的绝对值可判断相关性:
0.8~1.0:极强相关
0.6~0.8:强相关
0.4~0.6:中等程度相关
0.2~0.4:弱相关
0.0~0.2:极弱相关或无相关

在这里插入图片描述

——嵩天老师教学的学习笔记

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值