DataWhale暑期夏令营学习笔记番外篇之竞赛上分技巧

最新推荐文章于 2024-07-12 14:17:28 发布

代码不跑那我跑

最新推荐文章于 2024-07-12 14:17:28 发布

阅读量126

点赞数

分类专栏： DataWhale暑期AI夏令营文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51038524/article/details/132001089

版权

DataWhale暑期AI夏令营专栏收录该内容

5 篇文章 2 订阅

订阅专栏

DataWhale暑期夏令营学习笔记番外篇之竞赛上分技巧

竞赛流程
1. 问题建模
2. 数据探索性分析（EDA）
3. 特征工程
4. 必备模型
5. 模型融合

竞赛流程

在这里插入图片描述

1. 问题建模

问题建模要从对赛题的理解和对理解的线下验证两个角度出发。

对赛题的理解首先可以从业务层面进行入手，比如针对还款情况的分析，可以从还款意愿、还款能力、其他因素等方面进行考虑。还款的意愿又可以从历史逾期、是否黑名单、是否属于诈骗团体、是否提供虚假信息等方面判断其是否有欺诈倾向；还款能力可以从收入水平、债务情况、工作变动情况等判断；其他因素中，工资结算日、节假日等也可能对其还款情况产生影响。

其次，再通过对于赛题数据进行理解，查看每种数据集之间的关系、数据中的缺失值情况、类别特征和数值特征的基本分布，比如类别数、均值、最值等。

然后，对模型的评价指标进行选择，分类指标主要有精确率、召回率、AUC、logloss等，回归指标主要有MAE、MAPE、RMSE等。

线下验证有时序验证、K折交叉验证等思路。

时序验证：
在这里插入图片描述
K折交叉验证：

2. 数据探索性分析（EDA）

何为EDA？在这里插入图片描述
如何EDA？

3. 特征工程

3.1 数据预处理

离群点处理：对于数据中，偏离数据群体的点可以当作缺失值进行处理，也可删掉离群点所在样本，或使用统计值进行填充，可以多做尝试，选择效果最佳的方案。
缺失值处理：要查看是否有特定的业务意义，有的话可以用填充max(fea)+1/min(fea)-1；无业务意义的真正缺失值可以使用各种填充方案，也可以不填充（比如设置为np.nan），通过对比各种方案的效果进行选择处理。
错误值处理：对具有明显错误的特征，比如血压9999999，体重800等进行修正，在匿名特征中出现-1和999可能表示了缺失值，替换np.nan。

3.2 特征提取

特征分为类别特征、数值特征、时间特征等。
在这里插入图片描述

对于常见的时序问题，我们可以采用历史平移、滑窗统计等方法进行特征提取。

3.3 特征选择

在这里插入图片描述

4. 必备模型

XGBoost：对特征处理要求低；
LightGBM：对类别和连续特征友好；
NN模型：缺失值不需要填充；

5. 模型融合

鱼佬给的示例。
在这里插入图片描述

代码不跑那我跑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
DataWhale暑期夏令营学习笔记番外篇之竞赛上分技巧

鱼佬分享的竞赛上分技巧
复制链接

扫一扫

专栏目录

代码不跑那我跑 CSDN认证博客专家 CSDN认证企业博客

码龄4年

9: 原创

58万+: 周排名

31万+: 总排名

1217: 访问

: 等级

104: 积分

3: 粉丝

2: 获赞

7: 评论

3: 收藏

私信

关注

热门文章

分类专栏

DataWhale暑期AI夏令营 5篇

最新评论

DataWhale九月组队学习之LeetCode4
CSDN-Ada助手: 恭喜您在DataWhale九月组队学习中的持续创作，标题为“LeetCode4”的博客内容很有深度，对于LeetCode学习有很大帮助。接下来，建议您可以尝试写一些关于实际应用场景下的算法解决问题的分享，这样可以让读者更好地理解算法的实际运用。希望您能继续保持创作的热情，期待您更多精彩的分享。
DataWhale九月组队学习之LeetCode1
CSDN-Ada助手: 恭喜作者完成第6篇博客！看到标题《DataWhale九月组队学习之LeetCode》，我感到非常振奋。持续创作博客是一项了不起的成就，你的努力和毅力值得赞赏。在未来的创作中，我建议你可以更深入地分享自己在LeetCode学习过程中的心得体会，比如解题思路、遇到的难点以及如何克服等等。这样的分享对其他读者来说将会非常有启发性。期待你在下一篇博客中的精彩发表！
DataWhale暑期夏令营第三期AI4S生命科学赛道之特征降维
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题“DataWhale暑期夏令营第三期AI4S生命科学赛道之特征降维”引人注目。了解特征降维在生命科学领域中的应用对于我们深入了解数据分析的重要性至关重要。希望您能继续分享更多关于数据分析和AI在生命科学中的应用方面的见解。在下一篇博客中，我建议您可以探索一下相关的特征选择方法，或者深入讨论特征降维对于生命科学研究中的挑战和解决方案。期待您的精彩创作！
DataWhale暑期夏令营第三期AI4S生命科学赛道baseline逐句注解
CSDN-Ada助手: 恭喜您撰写第四篇博客！标题“DataWhale暑期夏令营第三期AI4S生命科学赛道baseline逐句注解”非常吸引人。您对AI4S生命科学赛道的baseline进行逐句注解的做法非常值得赞扬，这样的解读将对读者有很大帮助。在下一步的创作中，我谦虚地建议您可以考虑扩展一下您的主题，例如探索更多AI在生命科学领域的应用案例、深入分析baseline背后的原理，或者分享一些实践经验和技巧等等。这样的创作将进一步丰富您的博客内容，吸引更多读者的关注。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
DataWhale暑期夏令营第三期AI4S生命科学赛道baseline逐句注解
__心似大海__: 特征工程部分的注释是否有误？代码的效果应该是取前1000列然后得到每行的最大值等统计量

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

代码不跑那我跑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。