特征降维有特征抽/提取和特征选择两种方法
1.特征抽/提取:从原始特征计算出一个抽象程度更高的特征集,创造出一个原始特征的映射(改变了原来的特征)
主成分分析(Principal Component Analysis, PCA):找出一个最主要的特征,然后进行分析
因子分析(Factor Analysis):将多个实测变量转换为少数几个综合指标
独立成分分析(Independ Component Analysis, ICA):ICA 认为观测信号是若干个独立信号的线性组合,ICA 要做的是一个解混过程
2.特征选择:从原始特征中选择出一些最具有代表性的特征(一种包含关系)
-
Filter 过滤法:对特征进行“打分”即赋予权重,然后进行筛选,此方法独立与算法,直接由原始的特征集求得
主要方法:
卡方检验(Chi-squared test ):表示观察实际值与理论值之间的偏离程度,值越大表示偏差越大
信息增益(information gain):表示由于某特征使数据集不确定性减少的程度,值越大表示该特征越重要
相关系数(correlation coefficient scores):表示变量之间关系密切程度,在-1到1之间,带有方向性,值越靠近0表示相关性越差
互信息(mutual information):表示特征与类别的相关性,值越大性关系越强
2.Wrapper 包装法:使用一个基模型递归的进行训练,消除若干特征搜寻最优问题
3.Embedded 嵌入法:确定模型的过程中,挑选出对模型训练有重要意义的属性,即在特征选择过程中嵌入到训练模型中