内容介绍
常见的特征工程
删除异常值
理解箱线图
如果我们对一组包含异常值的数据绘制箱线图,一般会得到包含了大量异常数据点,它们偏离中间的数据主体,里面可能既包含偏大的异常值,也包含了偏小的异常值
箱线图显示异常数据的依据是什么?箱线图中间是一个箱体,也就是粉红色部分,箱体左边,中间,右边分别有一条线,左边是下四分位数(Q1),右边是上四分位数(Q3),中间是中位数(Median),上下四分位数之差是四分位距(IQR),用 Q1-1.5IQR 得到下边缘(最小值),Q3+1.5IQR 得到上边缘(最大值)。在上边缘之外的数据就是极大异常值,在下边缘之外的数据极小异常值,总之在上下边缘之外的数据就是异常值。
palette:调色板,控制图像的色调
pandas中的quantile函数:统计学上的四分为函数,所谓四分位数;即把数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数
1、第1四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
2、第2四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
3、第3四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字
第3四分位数与第1四分位数的差距又称四分位距(InterQuartile Range,IQR)
四分位距(interquartile range, IQR),又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别。与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计
中位数必然等于第三四分位数与第一四分位数的算术平均数),二分之一的四分差等于绝对中位差(MAD)。中位数是集中趋势的反映
set和reset
pandas 中的函数—— .reset_index():
参数理解
修改排序,否则可能会产生错误,所以对DataFrame做完合并,或者做分组聚合(groupby,agg,transform等函数)后,最好做一个reset_index处理。