数据竞赛入门 #task1 EDA

二手车交易预测-task1 EDA

采用pandas_profiling

pandas_profiling 简直是不会编程的手残党福音啊,这次eda偷了一下懒,直接用这个,省去了许多代码,就是运行时间太长,[31×150000]的数据运行了51min。。。,好吧看一下
warning提示
由于所有特征都转化为label encoding,因此需要人为地分出数字特征与分类特征,预测值位price。从这里可以看出,bodytype、gearbox和fuelType的缺失值较多(3.0%、4.0%和5.8%),需考虑填充。offerType和seller几乎全部都是相同值,倾斜严重;根据相关性分析(皮尔逊系数),v_4与v_13,v_7与v_2,v_6与v_1,v_9与v_4高度相关。
故在初次分析时,考虑删去以下变量:offertype,seller,v_7,v_6与v_9,对于后三个匿名特征,会在初步拟合后逐步加入验证是否会存在因删去遗漏的信息。
其中object变量 ‘notrepairDmage’ 存在 ‘-’ 字符,即为缺失值,这里需默认替换为‘0’。
接下来查看预测值price的分布
在这里插入图片描述
明显不是正态分布,故在回归之前需要进行转化。这里最符合的是无界约翰逊分布(不知道这个知识点)
在这里插入图片描述
这里的min5和max5明显不符合现实规律,故将他们作为异常值进行删除。并进行对数转换(小trick!可能可以将数据转换为正态分布)

关于数字特征与分类特征,将他们人为分开后查看他们unique分布(不懂的知识点)

感悟:

EDA有几部分内容:对数据的整体认识(大小、特征数等);对各个特征的缺失值、异常值和分布(偏度、峰度)有大概的了解,以便做出相应的操作(特别是y_label);对整体数据做一个相对简单的相关性分析,以便剔除高度相关性的变量,或对接下来的特征工程有前瞻性的了解。
EDA部分的图表相当重要,除了常用的分布图,bar,scatter,box,heatmap,还学到violin图可以用于分类特征的分析

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值