Pandas用法总结（二）

最新推荐文章于 2020-12-11 07:54:34 发布

liu羡阳

最新推荐文章于 2020-12-11 07:54:34 发布

阅读量445

点赞数

分类专栏：机器学习文章标签： pandas库

本文链接：https://blog.csdn.net/weixin_43998967/article/details/100933426

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Pandas库既可以操作索引，也可以操作数据。对索引的操作也是对数据的操作。
数据的排序
1.sort_index()方法在指定的轴上根据索引进行排序，默认ascending=True即升序，默认在axis=0方向排序即纵向索引的排序。
在这里插入图片描述

在这里插入图片描述

Series.sort_value()方法在指定轴上根据数值进行排序，默认axis=0，ascending=True。对于DataFrame多了一个参数by :DataFrame.sort_values(by,axis=0,ascending=False) by是axis轴上的某个索引或索引列表。
在这里插入图片描述

在这里插入图片描述

注意：NaN空值统一放在排序末尾。

数据分析常用方法
1.适用于Series和DataFrame类型：

在这里插入图片描述

还有.describe()方法：针对0轴（各列）的统计汇总，可以用索引取元素。

pd.value_counts()常用来确认数据出现的频率，返回一个Series。
value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)
Parameters
----------
values : ndarray (1-d)
sort : boolean, default True
Sort by values
ascending : boolean, default False
Sort in ascending order（递增排序默认为default 即降序）
normalize: boolean, default False
If True then compute a relative histogram（规格化默认false 若为true则变为比例）
bins : integer, optional
Rather than count values, group them into half-open bins,
convenience for pd.cut, only works with numeric data
dropna : boolean, default True
Don’t include counts of NaN（默认不含缺失值）

count_classes = pd.value_counts(data[‘Class’], sort = True).sort_index()

在这里插入图片描述

2.仅适用于Series：

自动索引的好处就是方便切片。

累计统计分析函数
在这里插入图片描述

分别是对列的累加和，累乘，累计最小和最大。

数据的相关分析
协方差
判断两个事物X Y的相关性。
在这里插入图片描述
度量各个维度偏离其均值的程度。协方差的值如果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，结果为负值就说明负相关的，如果为0，也是就是统计上说的“相互独立”。
但是并不精确。下面介绍皮尔森相关系数：
Pearson相关系数
在这里插入图片描述相关系数是用以反映变量之间相关关系密切程度的统计指标。
r就是相关系数，取值[-1,1] 。根据r的绝对值可判断相关性：
0.8~1.0：极强相关
0.6~0.8:强相关
0.4~0.6:中等程度相关
0.2~0.4:弱相关
0.0~0.2:极弱相关或无相关

在这里插入图片描述

——嵩天老师教学的学习笔记

liu羡阳

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Pandas用法总结（二）

Pandas库既可以操作索引，也可以操作数据。对索引的操作也是对数据的操作。数据的排序1.sort_index()方法在指定的轴上根据索引进行排序，默认ascending=True即升序，默认在axis=0方向排序即纵向索引的排序。Series.sort_value()方法在指定轴上根据数值进行排序，默认axis=0，ascending=True。对于DataFrame多了一...
复制链接

扫一扫

专栏目录