一、2.结构化解题流程细节

最新推荐文章于 2021-12-21 11:25:18 发布

哎呦-_-不错

最新推荐文章于 2021-12-21 11:25:18 发布

阅读量408

点赞数 1

分类专栏： # 比赛文章标签：结构化数据解题

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/112852134

版权

本文深入探讨结构化赛题，涉及数据分析、特征理解与模型验证。通过对resp字段、feature.csv的分析，揭示特征间的关联。讨论了原始baseline中date>85的筛选依据，以及特征0的影响。同时，研究了可视化在数据理解中的作用，并介绍了不同的模型训练与验证方法，如时间序列数据划分与交叉验证策略。

摘要由CSDN通过智能技术生成

文章目录

一、结构化赛题知识点

在这里插入图片描述

二、赛题数据分析

1.resp字段分析

在这里插入图片描述

2. feature.csv数据

原网址
在这里插入图片描述
feature.csv的目的是显示匿名特征之间的关系，tag0〜tag28是特征推导中使用的匿名共享组件/概念。例如，如果（feature_i，tag_j）的值为True，则意味着tag_j用于派生feature_i。

实际上tag是如何分布的？
参考网址

导入库
加载数据
对Example_sample_submission进行分析
对feature.csv进行分析

把表中每个feature的True+False进行统计

在这里插入图片描述

可以看出，一些特征与其他特征相比具有相似性。

Features 1 to 40 form set 1
Features 61 to 70 form set 2
Features 71 to 120 form set 3
Features 121 to 129 form set 4

在这里插入图片描述

对example_test数据进行分析

Data grouped by ID and Date

3.原始baseline中提出date>85（筛选数据），如何选择的？

原网址
这个网址中通过数据分析—从累计日收益的图表中找到趋势随时间的变化，发现许多特征似乎在第85天左右发生了变化。
网上有如下几种见解:

1.前85天是一个时间窗口，滚动计算时，由于数据不全导致第一个窗口不能用
我自己的看法是：在date比较小时，特征中数据缺失的比较多，因此是有可能是这个原因的。至于应该如何补充数据？还存在疑惑。常见的诸如填充均值、中值等不可行，利用随机森林算法等来填充的话，基于数据分布，会出现用未来的数据来预测过去的数据以进行填充，这个也是有问题的。所以可以考虑将缺失值前面缺失值较多的天数进行删除。

2.有人认为前85天与后面date可能是不同的交易模型。如果前85天数据趋势是由于市场波动导致与后几天数据趋势不同的话，那么应该保留几天的时间，以便更好地对这种情况进行建模。因为你不能保证测试数据所对应的时间内没有发生该市场波动。如果，发生了该市场波动，但是训练模型时对数据进行了删除，那么模型的泛化能力会很差！