竞赛流程
赛题内容
赛题主题、赛题任务、评分方法、赛题时间
根据背景、任务和数据进行分类
结构化赛题
非结构化赛题:图像、文本、语言
赛题数据
数据分析、数据理解、数据处理
单个字段分析:类别变量、数值变量、时序变量(变量的分布)
数据分析思路
分析单个变量
分析多个变量
读取并分析数据质量
探索性分析每个变量
变量类型
缺失值、异常值、重复值
是否均匀
是否需要转换
分析变量与标签的关系
是否存在相关性
是否存在业务逻辑
连续型变量与连续型变量
离散变量与离散变量
检查变量之间的正态性
结论
变量是否需要筛选、替换和清洗
变量是否需要转换
变量之间是否需要交叉
变量是否需要采样
特征工程
特征转换、特征构建、特征选择
特征清洗
异常点检测
不均衡采样
特征预处理
特征缩放
补充缺失值(imputation)
特征编码
类别特征
数值特征
日期特征
文本特征
图像特征
特征筛选
filter
wrapper
embedded
构建模型
模型训练、模型验证、模型调参
机器学习模型:
不同的模型有不同的偏好
结构化数据优先考虑树模型
非结构化数据优先考虑深度学习
模型集成
vote
blend
stacking:让二次模型学习一次模型真实标签和预测标签之间的残差
数据扩增
随机插入
相似词替换
随机删除
交换句子位置
预测打分
模型集成、打分反馈
分布一致性
Adversarial Validation:构建分类模型,分辨训练集和测试集的来源
AUC接近0.5:训练集和测试机分布比较一致
AUC接近1:训练集和测试机分布不太一致