这一部分主要介绍和特征处理相关的算法,大体分为以下三类:
1)特征抽取:从原始数据中抽取特征
2)特征转换:特征的维度、特征的转化、特征的修改
3)特征选取:从大规模特征集中选取一个子集
特征选择(feature Selection)指的是在特征向量中选择出那些优秀的特征,组成新的、更精简的特征向量的过程。它在
高维数据分析中十分常用,可以剔除掉‘冗余’和‘无关’的特征,提升学习器的性能。
特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsupervised)两种,卡方选择则是统计学上常用的一种有监督特征选择方法,它通过对特征和真实标签之间进行卡方检验,来判断该特征和真实标签的关联程度,进而确定是否对其进行选择。和ML库中的大多数学习方法一样,ML中的卡方选择也是以estimator+transformer的形式出现的,其主要由ChiSqSelector和ChiSqSelectorModel两个类来实现。
可以参考如下链接:
1)引入卡方选择器所需要使用的类:
2)创造实验数据,这是一个具有三个样本,四个特征维度的数据集,标签有1,0两种&#x