处理不平衡数据问题的利器!分位数随机森林算法解密

本文介绍了分位数随机森林,一种针对不平衡数据问题的随机森林改进算法。它通过调整单颗决策树的生成规则,考虑数据分布,以提高模型在少数类别上的识别能力。文章概述了基本概念,决策树原理,以及分位数随机森林的生成流程和应用实例。
摘要由CSDN通过智能技术生成

今天给大家分享的知识是关于分位数随机森林的知识,他是随机森林算法的一种改进,用于处理不平衡数据问题的改进随机森林算法,大家应该对不平衡数据问题或多或少都有一定了解,这一块的内容还是挺多的,在这里我就不进行阐述,大家知道使用不平衡数据集训练处理的模型面对新数据的能力其实会收到很大影响,具体地说就是在少数类别上面的识别能力比较差,甚至是非常差,但是不平衡数据在实际过程中又是非常常见的,因此有很多方式来处理该问题优化模型性能,今天讲到的分位数随机森林就是其中的一种,在实际的论文应用中也出现了该算法的使用,实际应用效果也是比较的,所以大家可以也了解一下。

在正式讲解分位数随机森林之前,我们先讲第一点基础知识,第一、条件分布的概念,条件分布是只在给定条件下,满足某种条件下的概率分布,公式如下:

F(y|X=x) = P(Y \leq y|X=x)

第二、分位数的概念,分布概率大于等于\alpha所对应的变量最小值称为该分布的\alpha分位数,分位数对应的是变量的最小值,公式如下:

Q_{\alpha }(x) = inf\left \{ y:F(y|X=x)\geq \alpha \right \}

第三、在在之前的篇章中我们详细的讲到了决策树的基本原理和思想,如果说大家还对决策树不熟悉,请关注公众号“明天科技屋”,优质好文为您推荐,掌握决策树相关的知识,决策树知识是这一章节知识的基础,这里我简单地讲述一些思想,决策树其实就是在给定数据的前提下,对数据进行划分,再对数据所属叶子结点求均值的思想,随机森林是很多决策树的集合,本质上也是这个思想,即在给定数据集X的基础上求观测变量Y的均值,用数学表达式为:E(Y|X=x),因此随机森林只观测到了数据的均值,但是忽视了其他重要信息,从而在某些情况下可能会收到影响,因此我们需要不仅关注到数据均值,还需要数据分布等信息,在这样的情况下,阐述了分位数随机森林。

 在分位数设定中,我们假定加权的目标不是对条件均值进行,而是对条件分布进行,公式如下:

最后的一部分是为了和随机森林的条件均值相对应,因此换成了相对应的形式, 这里的y代表我们确定的某个分位数的值,这里我们引入几个关于随机森林模型的中几个公式,方便大家理解,单颗树的观测值权重如下,含义是:在某个样本被单颗决策树划分到某个叶子结点,该样本的权重为1/叶子结点中样本的数量,其实就是平均思想:

随机森林中每棵树的权重为:

大家结合最终输出结果公式看就非常好理解了,将最终输出结果公式拆分就可以,最终输出结果公式如下:

 因此,我们得出的分布等加权期望为:

这里大家可以理解成概率,我们最终求解的输出还得乘以对应的结果,大家可以利用掷骰子来类比这个过程就能理解,因此我们最终的输出为:

\hat{u} = \sum_{i=1}^{n}w_{i}(x)1_{Y_{i}\leqslant y }Y_{i}

最后,我给大家梳理一下完整的流程吧,书上和论文上的资料都太简单并且简洁了,总的来说流程如下:

第一、我们首先按照规则生成随机森林中的树,假设有T课,树的生成和随机森林其实规则不太一样,在分位数随机森林中,我们首先计算出指定分位数对应的值,遍历所有特征以及特征的值,选择一个特征及值作为分裂点,标准参考随机森林(信息增益、残差平方和最小),将数据中小于分位数的数据划分到左边,大于等于分到右边,按照这样的过程生成树,知道满足某种条件,参考随机森林

第二、树生成之后,我们假设使用新数据进行判断,大家可以发现,分位数随机森林中的决策树其实按照数据的分布进行划分的,最终的结果还是对数据所属结点均值输出为单颗树的判断,最终结果是森林中多课树的均值。

所以,大家可以看到分位数回归森林其实是改变了森林中单颗树的生成方式,其他还是没有太大变化,如果你看了我之前的随机森林,应该深有感悟,但是这样的新方式在实际过程中还是有很多应用场景,例如:在数量经济技术经济研究期刊中就有使用该方式研究收入不平等的主题,大家感兴趣可以搜索阅读,如果大家不想下载,关注公众号“明天科技屋”回复关键词获得,同时与分位数随机森林的研究论文我也将放到公众号,大家也可以回复关键词获得,不用于盈利,只做知识的传播者!!!

 

  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不一样的邓先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值