数据竞赛—二手车价格预测—特征工程

本文介绍了数据竞赛中特征工程的重要性,特别是异常值处理和数据分桶。通过箱线图识别异常值,利用四分位数计算异常值边界,并探讨了删除异常值的策略。此外,讨论了数据分桶的目的,如加速计算和增强模型稳定性,并提及了OneHot编码和LabelEncoder在离散特征编码中的应用。特征筛选方面,提到了过滤式、包裹式和嵌入式方法。文章最后强调了特征工程在提高模型性能中的关键作用。
摘要由CSDN通过智能技术生成

内容介绍

常见的特征工程
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

删除异常值

理解箱线图
如果我们对一组包含异常值的数据绘制箱线图,一般会得到包含了大量异常数据点,它们偏离中间的数据主体,里面可能既包含偏大的异常值,也包含了偏小的异常值
在这里插入图片描述
箱线图显示异常数据的依据是什么?箱线图中间是一个箱体,也就是粉红色部分,箱体左边,中间,右边分别有一条线,左边是下四分位数(Q1),右边是上四分位数(Q3),中间是中位数(Median),上下四分位数之差是四分位距(IQR),用 Q1-1.5IQR 得到下边缘(最小值),Q3+1.5IQR 得到上边缘(最大值)。在上边缘之外的数据就是极大异常值,在下边缘之外的数据极小异常值,总之在上下边缘之外的数据就是异常值

palette:调色板,控制图像的色调

pandas中的quantile函数:统计学上的四分为函数,所谓四分位数;即把数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数
1、第1四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
2、第2四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
3、第3四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字

第3四分位数与第1四分位数的差距又称四分位距(InterQuartile Range,IQR)

四分位距(interquartile range, IQR),又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别。与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计

中位数必然等于第三四分位数与第一四分位数的算术平均数),二分之一的四分差等于绝对中位差(MAD)。中位数是集中趋势的反映

set和reset
pandas 中的函数—— .reset_index():
参数理解
修改排序,否则可能会产生错误,所以对DataFrame做完合并,或者做分组聚合(groupby,agg,transform等函数)后,最好做一个reset_index处理。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值