实战天池精准医疗大赛——观看答辩总结

1. 说明

 今天是天池精准医疗大赛(糖尿病预测)的最终答辩,学习了一下前六名的经验分享.把自己没想到的列出来,如下.

2. 特征

(1) 多特征组合:
一般是现有特征加减乘除的组合,在特征多的情况下,先取强特征相互组合

(2) 数据分析:
常用分析方法:IV值分析(information value),方差,残差,单变量分析,PCA等等.
特征的相关性与去冗余:特征和结果的相关性分析可能找不出一些非线性相关,但是特征之间的强相关,可以帮助去掉一些冗余.
小数据集中某些特征,可能引起过拟合.

(3) 缺失值填充:
Nuclear,MICE,最近邻填充.
对于不同缺失比例,可使用不同方法填充.

(4) 单指标特征概率相对分布图
衡量单变量在取值变化过程中,正负样本比例随取值变化的一个相对变化程度的总结(这个值与相关性差别很大).可以在去掉和不去掉缺失值的情况下,分别统计.
连续特征/离散特征使用不同的统计方法:QQPlot,四分位图.

(5) 将不同特征划分为不同的训练集和测试集.
这可能是一种人为的预分类.

3. 算法

(1) 因子分解机FM

(2) 适合小数据量的catboost模型

(3) 用遗传算法调参

(4) 模型级联
先用A算法筛,筛出的疑似再用其它算法筛.
弱模型组合时需要注意模型差异性.

(5) 分类时可用回归模型,回归时可用分类模型

4. 最终结果处理

(1) 把重要数据和规则存下来,在没模型的情况下也能使用.

(2) 除了精确度,还要考虑实例数量,如某种情况下可能100%得病,但人数少.

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值