数据竞赛是什么?
建模流程分为11个模块:
-
问题理解,分析,规划。问题不同,解决方案不同 数据不同,模型不同。
-
数据探索分析;
-
样本筛选、样本组织;
-
验证策略设计;
-
模型理解和选择;
-
特征工程;
-
模型训练、验证、测试;
-
模型预测结果分析;
-
后处理;
-
模型融合;
-
复盘总结;
注意:要结合问题看题目,深入理解题目的各个点。
问题理解,分析,规划
先分析赛题业务背景:
赛题需要使用工具通过数据分析和模型创建量化策略 验证量化策略的有效性,并通过实时数据进行评测
数据集:
给定训练集(含验证集), 包括10只(不公开)股票、79个交易日的L1snapshot数据(前64个交易日为训练数据,用于训练;后15个交易日为测试数据,不能用于训练), 数据已进行规范化和隐藏处理,包括5档量/价,中间价,交易量等数据(具体可参考后续数据说明)。
任务:
利用过往及当前数据预测未来中间价的移动方向,在数据上进行模型训练与预测
赛题数据集探索分析:
打开CSV文件进行观察,观察数据的具体形式。
样本筛选、样本组织
初步分析问题 观察并筛选会对训练产生误导性的数据
验证策略设计
划分训练集与测试集,训练后进行本地验证
模型理解和选择
根据模型适用范围与业务数据集匹配度,选择模型,这里选择了catboost模型
特征工程
-
特征构建
-
提取
-
选择
在数据量特别大时可以使用采样方式挑选特征并进行特征工程
特征工程就是在帮助模型学习,在模型学习不好的地方或者难以学习的地方,采用特征工程的方式帮助其学习,通过人为筛选、人为构建组合特征让模型原本很难学好的东西可以更加轻易的学习从而拿到更好的效果。
例如这个比赛带有时间信息,按照时间维度进行组织,就要对时间特征进行处理,让机器能够看懂时间并且理解时间
模型训练,验证,测试,迭代
-
超参数的选取
-
掌握基本调参技巧
-
优化模型效果