一、2.结构化解题流程细节

本文深入探讨结构化赛题,涉及数据分析、特征理解与模型验证。通过对resp字段、feature.csv的分析,揭示特征间的关联。讨论了原始baseline中date>85的筛选依据,以及特征0的影响。同时,研究了可视化在数据理解中的作用,并介绍了不同的模型训练与验证方法,如时间序列数据划分与交叉验证策略。
摘要由CSDN通过智能技术生成

一、结构化赛题知识点

在这里插入图片描述

二、赛题数据分析

1.resp字段分析

在这里插入图片描述

2. feature.csv数据

原网址
在这里插入图片描述
feature.csv的目的是显示匿名特征之间的关系,tag0〜tag28是特征推导中使用的匿名共享组件/概念。例如,如果(feature_i,tag_j)的值为True,则意味着tag_j用于派生feature_i。
在这里插入图片描述
在这里插入图片描述
实际上tag是如何分布的?
参考网址

  1. 导入库
    在这里插入图片描述

  2. 加载数据
    在这里插入图片描述

  3. 对Example_sample_submission进行分析
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  4. 对feature.csv进行分析
    在这里插入图片描述
    在这里插入图片描述
    把表中每个feature的True+False进行统计
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述

可以看出,一些特征与其他特征相比具有相似性。

Features 1 to 40 form set 1
Features 61 to 70 form set 2
Features 71 to 120 form set 3
Features 121 to 129 form set 4

在这里插入图片描述
在这里插入图片描述

  1. 对example_test数据进行分析
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    Data grouped by ID and Date
    在这里插入图片描述
    在这里插入图片描述
3.原始baseline中提出date>85(筛选数据),如何选择的?

原网址
这个网址中通过数据分析—从累计日收益的图表中找到趋势随时间的变化,发现许多特征似乎在第85天左右发生了变化。
网上有如下几种见解:

1.前85天是一个时间窗口,滚动计算时,由于数据不全导致第一个窗口不能用
我自己的看法是:在date比较小时,特征中数据缺失的比较多,因此是有可能是这个原因的。至于应该如何补充数据?还存在疑惑。常见的诸如填充均值、中值等不可行,利用随机森林算法等来填充的话,基于数据分布,会出现用未来的数据来预测过去的数据以进行填充,这个也是有问题的。所以可以考虑将缺失值前面缺失值较多的天数进行删除。

2.有人认为前85天与后面date可能是不同的交易模型。如果前85天数据趋势是由于市场波动导致与后几天数据趋势不同的话,那么应该保留几天的时间,以便更好地对这种情况进行建模。因为你不能保证测试数据所对应的时间内没有发生该市场波动。如果,发生了该市场波动,但是训练模型时对数据进行了删除,那么模型的泛化能力会很差!

4.分析feature_0

原网址

featue_0的数据格式为1,-1,尝试分析feature_0是否与每行数据的类别是对应的。下面用所有特征的肺形UMAP,表示两个主要的“肺” /簇,来展示具有的一些内部结构

  1. TriMap of features 1-130

对除feature_0以外的所有feature进行降维,以便从肺UMAP中找到两个主要聚类,分析这两个聚类是否对应于要素0的值?使用TriMAP代替UMAP进行分析,但是我希望我们会在TriMAP空间中看到类似的群集

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

正如预期的那样,feature1-130分为两个不同的分布,实际上,这些分布与`feature_0’完全匹配。 这是否表示买入/卖出,买入/卖出或其他我不了解的金融知识,但是很显然,“ feature_0”的值会影响数据集中某些(如果不是全部

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值