kaggle之EDA,特征工程

最新推荐文章于 2024-09-01 09:57:52 发布

yanzi-000

最新推荐文章于 2024-09-01 09:57:52 发布

阅读量2.2k

点赞数

分类专栏： ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuchuyan/article/details/94395696

版权

本文介绍了在kaggle竞赛中进行数据探索(EDA)和特征工程的一些关键步骤，包括数据集的合并、缺失值处理、数据类型的设定、特征构造、归一化等，旨在提升机器学习模型的性能。

摘要由CSDN通过智能技术生成

对于机器学习的从业者或者兴趣爱好者而言,kaggle提供了一个机器学习相关的竞技和交流平台.通过比赛和讨论分享,可以知道自己的水平并找到提高的方向.

EDA（Exploratory Data Analysis）

通常我们会用 pandas 来载入数据，并做一些简单的可视化来理解数据。

Visualization，通常来说 matplotlib 和 seaborn 提供的绘图功能就可以满足需求了。

比较常用的图表有：

查看目标变量的分布。当分布不平衡时，根据评分标准和具体模型的使用不同，可能会严重影响性能。

对 Numerical Variable，可以用 Box Plot 来直观地查看它的分布。

对于坐标类数据，可以用 Scatter Plot 来查看它们的分布趋势和是否有离群点的存在。

对于分类问题，将数据根据 Label 的不同着不同的颜色绘制出来，这对 Feature 的构造很有帮助。

绘制变量之间两两的分布和相关度图表。

特征工程

Feature Engineering Techniques,这篇文章是kaggle上面的一位grandmaster分享的特征工程常用操作,摘录如下.

train and test 训练集和测试集组合在一起

df = pd.concat([train[col],test[col]],axis=0)
# PERFORM FEATURE ENGINEERING HERE

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yanzi-000 CSDN认证博客专家 CSDN认证企业博客

码龄17年

35: 原创

28万+: 周排名

127万+: 总排名

2万+: 访问

: 等级

640: 积分

3: 粉丝

2: 获赞

5: 评论

17: 收藏

私信

关注

热门文章

分类专栏

学习笔记 3篇
代码片
big data 3篇
computer 12篇
ML 4篇
CV 13篇

最新评论

face recognition
yanzi-000: 不好意思，近来没怎么关注人脸识别方面的内容。如果是实际应用的话，模型之前的图像预处理做了足够的优化吗
face recognition
阿铖f: 请问博主Google的facenet的准确率已经在99.6左右了，在现在效果还是很前端的么？还有没有比facenet效果更好的人脸识别模型
face recognition
努力爬坡的小白: 谢谢你的建议
face recognition
yanzi-000 回复努力爬坡的小白: 没有做过这一块的内容,但是可以考虑一下使用深度相机,生成点云后识别出鼻子,鼻子的深度减去鼻子旁边的皮肤的深度就是鼻子的高度了.
face recognition
努力爬坡的小白: 你好，请问对于测量鼻子高度，是先将鼻子识别出来再进行测量吗，请问您有计算鼻子高度的代码吗？急用，万分感谢。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。