数据挖掘之心跳信号分类预测--笔记一--理解题目和baseline

最新推荐文章于 2021-05-08 11:56:50 发布

暴走小辉

最新推荐文章于 2021-05-08 11:56:50 发布

阅读量648

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_46303299/article/details/114866467

版权

数据挖掘之心跳信号分类预测--笔记一--理解题目和baseline

题目背景
赛题数据
评估指标
数据预处理
baseline
- 相关参数
- 跑baseline结果
参考

题目背景

以心电图心跳信号数据为背景，我们要根据心电图感应数据预测心跳信号所属类别，其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例，这是一个多分类的问题。

赛题数据

比赛分A、B榜
训练数据共有10万条数据
在这里插入图片描述
测试集A共有2万条数据

其中heartbeat_signals（心跳信号）长这个样子

心跳信号序列的采样频次一致，长度相等，没行数据的heartbeat_signals的采集个数都是205

评估指标

将4种不同心跳信号预测的概率，与实际心跳类型结果进行对比，求预测的概率与真实值差值的绝对值（越小越好）。
例如，心跳信号为1，会通过编码转成[0,1,0,0]，预测不同心跳信号概率为[0.1,0.7,0.1,0.1]，那么这个预测结果的abs−sum为
abs−sum=∣0.1−0∣+∣0.7−1∣+∣0.1−0∣+∣0.1−0∣=0.6

数据预处理

将训练数据和testA转成dataframe格式
在这里插入图片描述
（testA没有label列）

baseline

baseline使用的是GBDT 梯度提升树（Gradient Boosting Decison Tree）做多分类。

GBDT属于集成学习模型：多个模型共同解决问题，GBDT的每棵树都建立再前一棵树的基础上，前一颗树的残差作为下一颗树的输入，不断逼近真实值。

GBDT属于Boosting家族：一个模型依赖于上一个模型，共同逼近正确答案。

相关参数

folds：交叉验证的份数
seed：随机种子
objective：学习目标和损失函数。
boosting_type：‘gbdt’, traditional Gradient Boosting Decision Tree；
‘dart’, Dropouts meet Multiple Additive Regression Trees；
‘goss’, Gradient-based One-Side Sampling；
‘rf’, Random Forest。
num_class：类别数目
num_leaves：因为 LightGBM 使用的是 leaf-wise 的算法，因此在调节树的复杂程度时，使用的是 num_leaves 而不是 max_depth。大致换算关系：num_leaves = 2^(max_depth)。它的值的设置应该小于 2^(max_depth)，否则可能会导致过拟合。
feature_fraction（colsample_bytree）：列采样比例，调小可以防止过拟合，加快运算速度。
bagging_fraction（subsample ）：样本采样比例，调小可以防止过拟合，加快运算速度。
learning_rate：学习率
bagging_freq（subsample_freq）：bagging 的频率，0 表示禁止 bagging，正整数表示每隔多少个迭代进行 bagging。
nthread：运行时线程数
num_boost_round：迭代次数
verbose_eval：如果设为100，则每迭代100次输出一次结果
early_stopping_rounds：如果设为200，则连续200次迭代，损失函数都没有得到优化，则训练提前结束

跑baseline结果

线下得分
在这里插入图片描述
线上得分

这个得分仅调整了seed

参考

https://www.cnblogs.com/Allen-win/articles/12214781.html

https://www.bilibili.com/video/BV1U5411n7vH?from=search&seid=5318885629116638806

暴走小辉

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
数据挖掘之心跳信号分类预测--笔记一--理解题目和baseline

数据挖掘之心跳信号分类预测--笔记一--理解题目和baseline题目背景赛题数据评估指标数据预处理baseline题目背景以心电图心跳信号数据为背景，我们要根据心电图感应数据预测心跳信号所属类别，其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例，这是一个多分类的问题。赛题数据比赛分A、B榜训练数据共有10万条数据测试集A共有2万条数据其中heartbeat_signals（心跳信号）长这个样子心跳信号序列的采样频次一致，长度相等，没行数据的heartbeat_signa
复制链接

扫一扫