动手学习深度学习8-二手车交易kaggle竞赛理论篇

一. 竞赛流程

  1. 赛题理解
  2. 数据清洗
  3. 特征工程
  4. 调参
  5. 模型融合

二. 数据预处理

1. 数据清洗

主要处理缺失值,异常值,重复值等数据,针对数据类型格式等进行有效处理

1、缺失值处理
常用三种方式
1)删除数据:适用于大量数据的情况,删除也无影响;缺失数据占比过高
2)不处理:针对xgboost等树模型不处理
3)差值补全
补全方式:

  1. 统计量(均值、中位数、众数)
  2. 高维特征(压缩补全、矩阵补全、onehot)
  3. 建模预测
  4. 多重插补

2、 异常值处理

  1. 箱线图
  2. box-cox转换
  3. 长尾截断

3、数据分桶
分桶方式:等频分桶;等距分桶;best_KS分桶;卡方分桶

将连续数值属性转化为离散的数值属性
是否使用离散化?
1)海量离散特征+简单模型
线性模型常使用该方式
优点:模型简单;缺点:特征工程较为困难

2)少量连续特征+复杂模型
非线性模型
优点:不需要进行复杂的特征工程
缺点:模型复杂

2. 特征工程

对原始数据进行转换,选择,合并,提取有意义的特征

3. 数据归一化、标准化

将数据映射到一个范围内,消除不同特征量纲的影响

4. 数据划分

数据分为训练集、测试集、验证集,保证模型泛化能力

5. 数据增强

对原始数据进行旋转、平移和缩放

6.采样

类不平衡时,进行数据采样,使得政府样本数量相近

7. 降维

高维稀疏向量,降维减少特征维度

三. 构建一个恰当的模型

1. 问题分析

确定问题类型、数据类型、规模
确定评估指标

2. 参考模型

查找已有的类似问题解决方案
查找已有的开源模型

3.模型选择

根据问题类型选择网络结构
根据数据类型和规模选择网络参数
进行交叉验证和调参
将模型和baseline进行比较

4. 模型评估

对比实验结果的评价指标
对比实验结果和baseline结果
进行误差分析

5.模型部署

可移植性、扩展性、计算资源要求

任务类型
1、监督学习:给定一组输入数据和输出数据,训练模型来预测新的输入类型;常见的有分类、回归、目标检测
2、无监督学习:给定一组无标签的数据集,让那个模型去学习分布特征。场景的有聚类、降维、生成模型
3、半监督学习:有标签的数据和无标签的数据,训练进行分类。常见的有自训练、协同训练等
4、强化学习:通过学习和反馈来逐步优化决策和行为的过程。场景的包括游戏AI、机器人控制
5、迁移学习:一个任务上训练的好,迁移到另一个任务上
6、多任务学习:一个模型中训练多个任务
7、元学习:通过学习如何学习的方法提供模型泛化能力和适应性
8、对抗学习:引入对抗性样本,提高模型在真实场景的鲁棒性和适应性

模型类型:
在这里插入图片描述
模型类型的功能和任务不同,需要结合任务去选择

如何提升模型效果

1、数据准备
数据处理提升,如数据增强、平衡等
2、神经网络结构
调整层数,激活函数,优化器,正则,集成模型
3、超参调整
学习率,屁大小,权重衰减,网络参数,使用自适应学习率
4、模型集成
模型平均,模型融合,迁移学习
5、手动调整
添加/删除特征、调整阈值、调整损失函数
6、模型解释
可解释的模型、可视化模型特征、可视化或解释模型决策
7、其他技巧
提前停止训练、增加训练数据、改善梯度(消失、爆炸)问题、模型量化

在这里插入图片描述

理解模型

在这里插入图片描述
模型会有一些先验假设,比如线性回归会有高斯分布的假设,如果数据的分布越满足这个假设,效果越好

性能验证:

函数:评价函数(Loss)和目标函数
方法:交叉验证、留一验证、针对时间序列问题的验证
实现:绘制学习率曲线,绘制验证曲线

传统模型调参:
贪心调参法、网格调参法、贝叶斯调参法

深度学习调参:
在这里插入图片描述
模型融合:
在这里插入图片描述
常见的问题:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值