Spark MLlib 特征抽取、转化和选择 -- 特征选取:卡方选择器

本文介绍了Spark MLlib中的特征处理,包括特征抽取、转换和选择。重点讲解了有监督的特征选择方法——卡方选择器,它是通过卡方检验评估特征与真实标签的关联性,用于高维数据的特征精简,提高学习器性能。在示例中,展示了如何使用ChiSqSelector进行训练并选择最相关的特征。
摘要由CSDN通过智能技术生成

这一部分主要介绍和特征处理相关的算法,大体分为以下三类:
1)特征抽取:从原始数据中抽取特征

2)特征转换:特征的维度、特征的转化、特征的修改

3)特征选取:从大规模特征集中选取一个子集

特征选择(feature Selection)指的是在特征向量中选择出那些优秀的特征,组成新的、更精简的特征向量的过程。它在

高维数据分析中十分常用,可以剔除掉‘冗余’和‘无关’的特征,提升学习器的性能。

特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsupervised)两种,卡方选择则是统计学上常用的一种有监督特征选择方法,它通过对特征和真实标签之间进行卡方检验,来判断该特征和真实标签的关联程度,进而确定是否对其进行选择。和ML库中的大多数学习方法一样,ML中的卡方选择也是以estimator+transformer的形式出现的,其主要由ChiSqSelector和ChiSqSelectorModel两个类来实现。

可以参考如下链接:

特征的选择_03:ChiSqSelector卡方选择器

1)引入卡方选择器所需要使用的类:

2)创造实验数据,这是一个具有三个样本,四个特征维度的数据集,标签有1,0两种&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值