数据竞赛入门 #task1 EDA

最新推荐文章于 2023-02-25 00:39:13 发布

weixin_44593278

最新推荐文章于 2023-02-25 00:39:13 发布

阅读量118

点赞数

分类专栏： datawhale 文章标签：其他

本文链接：https://blog.csdn.net/weixin_44593278/article/details/105078836

版权

datawhale 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

二手车交易预测-task1 EDA

采用pandas_profiling

pandas_profiling 简直是不会编程的手残党福音啊，这次eda偷了一下懒，直接用这个，省去了许多代码，就是运行时间太长，[31×150000]的数据运行了51min。。。，好吧看一下
warning提示
由于所有特征都转化为label encoding，因此需要人为地分出数字特征与分类特征，预测值位price。从这里可以看出，bodytype、gearbox和fuelType的缺失值较多（3.0%、4.0%和5.8%），需考虑填充。offerType和seller几乎全部都是相同值，倾斜严重；根据相关性分析（皮尔逊系数），v_4与v_13，v_7与v_2，v_6与v_1，v_9与v_4高度相关。
故在初次分析时，考虑删去以下变量：offertype，seller,v_7,v_6与v_9，对于后三个匿名特征，会在初步拟合后逐步加入验证是否会存在因删去遗漏的信息。
其中object变量 ‘notrepairDmage’ 存在 ‘-’ 字符，即为缺失值，这里需默认替换为‘0’。
接下来查看预测值price的分布
在这里插入图片描述
明显不是正态分布，故在回归之前需要进行转化。这里最符合的是无界约翰逊分布（不知道这个知识点）

这里的min5和max5明显不符合现实规律，故将他们作为异常值进行删除。并进行对数转换（小trick！可能可以将数据转换为正态分布）

关于数字特征与分类特征，将他们人为分开后查看他们unique分布（不懂的知识点）

感悟：

EDA有几部分内容：对数据的整体认识（大小、特征数等）；对各个特征的缺失值、异常值和分布（偏度、峰度）有大概的了解，以便做出相应的操作（特别是y_label）；对整体数据做一个相对简单的相关性分析，以便剔除高度相关性的变量，或对接下来的特征工程有前瞻性的了解。
EDA部分的图表相当重要，除了常用的分布图，bar，scatter，box，heatmap，还学到violin图可以用于分类特征的分析

weixin_44593278

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据竞赛入门 #task1 EDA

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
复制链接

扫一扫