因果特征选择的发展

因果特征选择是数据分析和机器学习中的新兴方法,强调利用因果关系提高模型解释性和鲁棒性。通过在贝叶斯网络中寻找马尔科夫毯,算法分为同步类和分治类,如GS、IAMB、MMMB、HITON-MB等。然而,大规模数据的条件独立性测试枚举操作限制了效率。
摘要由CSDN通过智能技术生成

因果特征选择的发展

特征选择是数据分析和机器学习中重要的预处理步骤,在高维数据分析中起着至关重要的作用,并且广泛应用于各种机器学习解决方案中,其中,基于因果关系的特征选择算法是一种新兴的过滤式的方法。研究表明,有关特征与类变量之间的因果关系的知识对于建立可解释且强大的预测模型具有良好的性质。因此,基于因果关系的特征选择逐渐引起许多人的关注,并发展出了许多算法[1]。

因果特征可以提高预测模型的解释能力和鲁棒性,传统的关系特征选择所选择的特征通常不能为预测提供令人信服的解释。例如,可以发现(小学儿童(1-5 年级)的鞋子尺码与(孩子的)阅读能力之间有很强的相关性,在传统的基于关系的解读中,鞋子的尺码会成为小学阅读能力的良好预测特征。但显然,这与我们的常识相悖,鞋码根本不是合理的阅读能力解释。实际上,诸如年龄等阅读能力的原因比鞋子的尺码更容易解释这种相关性。

因果关系暗示着有关类变量的潜在机制,因此它们在不同的设置或环境中是持久的。例如,我们要建立一个预测模型,以使用历史数据预测小学儿童的阅读能力。根据历史数据,使用非因果特征(例如鞋码)构建的预测模型可能无法为高中学生提供良好的预测。相反,如果选择学生阅读能力的原因(例如年龄)作为预测特征,则基于历史数据的模型将很健壮。

因果特征选择将因果关系纳入考虑范围并因此有了较强的可解释性,且近年来备受关注。此类算法运行在满足忠实性的贝叶斯网络中,以马尔科夫毯(MB)[2]为算法的目标输出,其中MB包括父节点、子节点、配偶节点(孩子节点的其他父节点)。已有的很多因果特征选择算法,基于这些算法的框架,它们主

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值