基于正则化的特征选择

这篇博客探讨了特征选择的重要性,特别是基于正则化的特征选择方法。它介绍了正则化范数的概念,如ℓ1和ℓ2,1范数,并通过Lasso和RFS等算法展示了它们在特征选择中的作用。文章还提到了不同类型的特征选择算法,包括基于回归、数据重构、伪标签和结构保持的方法,并列举了各种代表性工作。" 138556601,18614638,C++解决华为机试:字符串中所有整数最小和,"['华为OD', '算法', 'C++']
摘要由CSDN通过智能技术生成

1、特征选择简述
降维,有时也可称为子空间学习,可以大致分为特征选择(feature selection)和特征提取(feature extraction)两大类,我们常说的主成分分析(PCA)、线性判别分析(LDA)、流形学习的代表—-局部线性嵌入(LLE)等,都是属于后者。特征提取,通常是将原始数据投影到一个新的空间,对于线性方法,就是学习一个投影矩阵W,使得投影后的数据最具有代表性信息(如PCA),或者最具有区分性信息(如LDA)。从特征的数值来看,特征提取会改变原始数值,相当于生成了新的通常来说是更好的特征。在一些实际应用中,比如生物医学中的基因分析,需要找到某一种疾病跟哪些基因有关系(通常只跟个别或少数几个基因有较大关联),或者在文本挖掘中,需要找到一些关键的字词,这个时候,我们就不能改变原始的特征数值,因此传统的特征提取不能直接派上用场。有需求,就有市场,特征选择的提出,正式为了解决这一类问题。通过设计一些准则,特征选择算法可以挑出原始特征中比较有用的特征子集,而不会改变原始特征数值。下面给个图直观看一下两者的区别。

图1.1 将一个6维的向量,降到三维,特征提取相当于新生成了三个特征,而特征选择是从原始特征中选出三个,在特征的数值上并无改变。这里仅作为一个示意,图中均为随机取值。
现有的特征选择算法,从不同的角度,可以分为不同的类型。按数据标签的获取情况,可以分为有监督、半监督和无监督特征选择;按是否需要额外的学习算法参与特征选择过程,以及具体的参与方式,可以分为封装型(wrapper)、嵌入式(embedded)和过滤型(filter)。再细致一些,可以分为基于信息论的特征选择、基于统计的特征选择

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值