特征工程 | 特征选择、特征降维

ToBeCertain

于 2024-03-27 11:46:44 发布

阅读量1.1k

点赞数 32

分类专栏：机器学习文章标签：人工智能算法机器学习特征工程

本文链接：https://blog.csdn.net/weixin_49613115/article/details/137007798

版权

机器学习专栏收录该内容

27 篇文章 4 订阅

订阅专栏

一. 特征选择

特征选择的目的是从原有特征中找出主要特征，原始特征可能包含冗余或无关变量（或称特征、属性、指标等）

手工

过滤

 按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，从而选择特征；常用方法：

1. 方差选择法

先计算各个特征属性的方差值，然后根据阈值，获取方差大于阈值的特征

2. 相关系数法

先计算各个特征属性对于目标值的相关系数以及阈值K，然后获取 K个相关系数最大的特征属性

如果y是连续值，一般用相关系数
如果y是离散值，一般用卡方检验

F值：特征和目标变量之间的关系是否显著，是一个统计指标
     F值越大，表示特征和目标变量之间的相关性越强

相关系数：特征和目标变量之间线性关系的强度和方向,可以是正相关、负相关或无关
         取值范围为[-1,1]:绝对值越大，表示相关性越强，符号表示相关性的方向

F值与相关系数比较：
F值反映特征和目标变量之间的关系是否显著
相关系数反映特征和目标变量之间的线性关系的强度和方向

在特征选择中，通常使用：
F值作为评价函数，选择与目标变量相关性较强的特征
相关系数作为评价指标，评价每个特征与目标变量之间的关系

3. 卡方检验

统计样本的实际观测值与理论推断值之间的偏离程度

	如果卡方值越大，二者偏差程度越大
	如果卡方值越小，二者偏差越小
	若两个值完全相等时，卡方值就为0，表明理论值完全符合

PS：针对分类变量

二. 特征降维

特征选择与特征降维是两种不同的处理方式：

	特征选择：原始的4条特征中保留2条
	特征降维：原始的4条特征综合后得到全新的2条

1. LDA(线性判别分析法)

LDA的全称是Linear Discriminant Analysis，将带上标签的数据（点），通过投影的方法，投影到维度更低的空间中，让映投影后的样本具有最好的分类性能，即“投影后类内方差最小，类间方差最大

LDA是有监督学习算法

在这里插入图片描述
LDA算法的整体思想：求一个旋转向量 $\vec{w}$ ，将数据 $\vec{x}$ 投影到一维
$\vec{w}^{T}\cdot \vec{x}$

投影后，存在一个阈值 $y_{0}$ ：
当 $y\ge y_{0}$ ，属于 $C_{1}$ 类
当 $y< y_{0}$ ，属于 $C_{2}$ 类

假设 $C_{1}$ 类有 $N_{1}$ 个点， $C_{2}$ 类有 $N_{2}$ 个点，那么投影前的类内均值为：
$\left\{\begin{array}{l} \vec{m}_{1}=\frac{1}{N_{1}} \sum_{i=1}^{N_{1}} \vec{x}_{i} \\ \\ \vec{m}_{2}=\frac{1}{N_{2}} \sum_{i=1}^{N_{2}} \vec{x}_{i} \end{array}\right.$

投影后的类内均值和松弛度分别为：
$\left\{\begin{array}{l} m_{1}=\vec{w}^{T} \cdot \vec{m}_{1} \\ \\ m_{2}=\vec{w}^{\mathrm{T}} \cdot \vec{m}_{2} \end{array}\right.$

$\left\{\begin{array}{l} s_{1}^{2}=\sum_{i=1}^{N_{1}}\left(y_{i}-m_{1}\right)^{2} \\ \\ s_{2}^{2}=\sum_{i=1}^{N_{2}}\left(y_{i}-m_{2}\right)^{2} \end{array}\right.$

松弛度：松弛度是样本松散程度的度量。值越大，越分散

对于松散度 $s^{2}$ 除以N就是方差

此时，目标函数可以定义为：
$J(\vec{w})=\frac{\left(m_{2}-m_{1}\right)^{2}}{s_{1}^{2}+s_{2}^{2}}$
当 $m_{2}-m_{1}$ 值越大，则说明两个类别距离较远

当 $s_{1}^{2}+s_{2}^{2}$ 值越小，说明两个类对各自均值相对集中

公式推导：

$\left(m_{2}-m_{1}\right)^{2}$

$=\left(\vec{w}^{T} \cdot \vec{m}_{2}-\vec{w}^{T} \cdot \vec{m}_{1}\right)^{2}$

$=\left(\vec{w}^{T} \cdot\left(\vec{m}_{2}-\vec{m}_{1}\right)\right)^{2}$

$=\left(\left(\vec{m}_{2}-\vec{m}_{1}\right)^{T} \cdot \vec{w}\right)^{2}$

$=\left(\left(\vec{m}_{2}-\vec{m}_{1}\right)^{T} \cdot \vec{w}\right)^{T}\left(\left(\vec{m}_{2}-\vec{m}_{1}\right)^{T} \cdot \vec{w}\right)$

$=\left(\vec{w}^{T} \cdot\left(\vec{m}_{2}-\vec{m}_{1}\right)\right)\left(\left(\vec{m}_{2}-\vec{m}_{1}\right)^{T} \cdot \vec{w}\right)$

$=\vec{w}^{T} \cdot\left(\vec{m}_{2}-\vec{m}_{1}\right) \cdot\left(\vec{m}_{2}-\vec{m}_{1}\right)^{T} \cdot \vec{w}$

令 $S_{b}=(\vec{m}_{2}-\vec{m}_{1}) \cdot(\vec{m}_{2}-\vec{m}_{1})^{T}$

得到： $\left(m_{2}-m_{1}\right)^{2}=\vec{w}^{T} \cdot S_{b} \cdot \vec{w}$

同理，得到： $s_{1}^{2}+s_{2}^{2}=\vec{w}^{T} \cdot S_{w} \cdot \vec{w}$

其中 $S_{b}、S_{w}$ 均已知

因此：
$J(\vec{w})=\frac{\vec{w}^{T} \cdot S_{b} \cdot \vec{w}}{\vec{w}^{T} \cdot S_{w} \cdot \vec{w}}$

求导公式推导：

$\frac{\partial J(\vec{w})}{\partial \vec{w}}$

$=\left(\frac{\vec{w}^{T} \cdot S_{b} \cdot \vec{w}}{\vec{w}^{T} \cdot S_{w} \cdot \vec{w}}\right)^{\prime}$

$=\frac{\left(\vec{w}^{T} \cdot S_{b} \cdot \vec{w}\right)^{\prime}\left(\vec{w}^{T} \cdot S_{b} \cdot \vec{w}\right)-\left(\vec{w}^{T} \cdot S_{w} \cdot \vec{w}\right)^{\prime}\left(\vec{w}^{T} \cdot S_{w} \cdot \vec{w}\right)}{\left(\vec{w}^{T} \cdot S_{w} \cdot \vec{w}\right)^{2}}$

$=\frac{2 S_{b} \vec{w}\left(\vec{w}^{T} \cdot S_{b} \cdot \vec{w}\right)-2 S_{w} \vec{w}\left(\vec{w}^{T} \cdot S_{w} \cdot \vec{w}\right)}{\left(\vec{w}^{T} \cdot S_{W} \cdot \vec{w}\right)^{2}}$

令导数为0，得到：
$S_{b} \vec{w}\left(\vec{w}^{T} \cdot S_{b} \cdot \vec{w}\right)=S_{w} \vec{w}{\left(\vec{w}^{T} \cdot S_{w} \cdot \vec{w}\right)}$
因为 $\vec{w}^{T} \cdot S_{w} \cdot \vec{w}$ 和 $\vec{w}^{T} \cdot S_{b} \cdot \vec{w}$ 是标量，所以上式的含义是: $S_{b} \vec{w}$ 与 $S_{w} \vec{w}$ 同方向
即： $S_{b} \vec{w}=\lambda S_{w} \vec{w}$

因为 $S_{b}=(\vec{m}_{2}-\vec{m}_{1}) \cdot(\vec{m}_{2}-\vec{m}_{1})^{T}$

这里证明 $S_{b}$ 为对称矩阵，则：

$S_{b}^{T}$
$(\vec{m}_{2}-\vec{m}_{1}) \cdot(\vec{m}_{2}-\vec{m}_{1})^{T}]^{T}$

$(\vec{m}_{2}-\vec{m}_{1})^{T} \cdot(\vec{m}_{2}-\vec{m}_{1})$

$S_{b}$

同理，也可以证明 $S_{w}$ 为对称矩阵

对于 $S_{b}\vec{w}=(\vec{m}_{2}-\vec{m}_{1}) \cdot(\vec{m}_{2}-\vec{m}_{1})^{T}\vec{w}$
因为 $(\vec{m}_{2}-\vec{m}_{1})^{T}\vec{w}$ 是标量，所以上式的含义是: $S_{b} \vec{w}$ 与 $\vec{m}_{2}-\vec{m}_{1}$ 同方向
即： $S_{b} \vec{w} = \lambda(\vec{m}_{2}-\vec{m}_{1})$

也就是说 $\vec{w} = S_{w}^{-1}\lambda(\vec{m}_{2}-\vec{m}_{1})$

这里对于 $w$ 的求解，最终变为求解每个类的均值和方差

2. PCA(主成分析法)

让映射后的样本具有更大的发散性，PCA是无监督的学习算法

主成分分析(PCA)的思路是：
将多个具有相关性的特征综合为少数几个有代表性的特征，它们既能够代表原始特征的绝大多数信息，组合后的特征又不相关；
通过减少特征的数量(即降维)达到了降低问题复杂性，又尽可能少地减少数据的特征损失的目的

简单说：找出数据里最主要的方面，用数据里最主要的方面来代替原始数据

在这里插入图片描述
简化版本的PCA降维的思路是：

寻找样本的主方向,将所有的m个样本投影到某直线L上，得到 m 个位于直线L上的点；计算这m个投影点的方差，我们认为方差最大的直线方向是主方向

比如：图中绿线所在的方向

	解释是样本点在这个直线上的投影能尽可能的分开，因为重叠就有信息消失

假设存在一个数据集(只有特征值)
在这里插入图片描述
此时，我们的任务是：

	要找到一个投影直线L，使得所有的数据投影到该直线上的方差最大

在开始公式推导前，我们先来放几条概念

首先，什么是基？
坐标(3,2)之所以为(3,2)是因为我们确定了一个坐标系，换句话说就是确定了空间中的一组基，即(1,0)和(0,1)

如果基坐标发生变化，对应得(3,2)坐标也相应发生变化：
以下图蓝色坐标系为例子：
首先，这组基可以是 $\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}}\right)$ 和 $\left(-\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}\right)$
然后我们计算出(3,2)映射到新坐标系下的值：
$\left(\begin{array}{cc} 1 / \sqrt{2} & 1 / \sqrt{2} \\ -1 / \sqrt{2} & 1 / \sqrt{2} \end{array}\right)\left(\begin{array}{l} 3 \\ 2 \end{array}\right)=\left(\begin{array}{c} 5 / \sqrt{2} \\ -1 / \sqrt{2} \end{array}\right)$
因此，蓝色的坐标系中，红色的向量坐标为 $\sqrt{2},-1 / \sqrt{2})$

对基的概念有一定了解之后，我们来进一步阐述PCA的具体操作思路：

	找到一组基（主成分）
	使得所有的数据变换为这组基上的坐标表示之后，方差值尽可能的大

而PCA找到的主成分应尽量保证无关联性，即：组基互不相关；那么对于寻找一组互不相关的基，PCA的实际做法是：

	先选择一个方向基，让数据投影到这个基上的方差最大
	然后在第一个方向基正交的方向上选择第二个方向基，使得数据投影到这个基上的方差最大
	随后在第一二个方向基都正交的方向上选择第三个方向基
	...
	依次选择下去，就可以保证方向基之间是互相正交的，也可以保证方差最大了

方差：表示的一个变量之间数据之间的波动程度
$\sigma^{2} =\frac{1}{m} \sum(x-\mu )^{2}$
协方差：表示的两个变量之间的相关程度
$\frac{1}{m-1}\sum_{i=1}^{m}(a_{i}-\mu_{a})(b_{i}-\mu_{b})$

假设存在大量样本点，对每个样本点进行均值化处理，即均值为0，可以得到：
$\frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i}$

如果想让两个基没有相关性，就要保证他们的协方差为0.

下面，我们开始推导：

假设存在矩阵
$X=\begin{bmatrix} a_{1}& a_{2} & ...&a_{n} \\ & & & \\ b_{1}& b_{2} & ... &b_{n} \end{bmatrix}$
那么，对矩阵内积可以得到(即：协方差矩阵公式)
$\frac{1}{m}XX^{T}=\begin{bmatrix} \frac{1}{m}\sum_{i=1}^{m}a_{i}^{2} & \frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i} \\ \\ \frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i} & \frac{1}{m}\sum_{i=1}^{m}b_{i}^{2} \end{bmatrix} =\begin{bmatrix} Cov(a,a) & Cov(a,b)\\ \\ Cov(a,b) & Cov(b,b) \end{bmatrix}$

上述公式我们可以看到：

	主对角线为两个特征的方差
	副对角线为两个特征之间的协方差
	同时，矩阵为对称矩阵

此时，我们的目标就变成了：

	特征之间的协方差为0：可以通过协方差矩阵相似对角化实现
	方差尽量最大：协方差矩阵对角化之后，把对角线上的元素从大到小排列

这里我们先来推导原矩阵与基变换后矩阵协方差矩阵的关系：
$\frac{1}{m}YY^{T}=\frac{1}{m}(PX)(PX)^{T} =\frac{1}{m}PXX^{T}P^{T} =P(\frac{1}{m}XX^{T})P^{T}=PCP^{T}$

公式解释：
X：原始数据矩阵
C：原始数据矩阵对应的协方差矩阵为，即 $\frac{1}{m}XX^{T}$
P：一组基矩阵(按行组成)
Y：X对P做基变换后的数据
D：Y 的协方差矩阵

$PCP^{T}=\Lambda =\begin{pmatrix} \lambda _{1}& & & \\ & \lambda _{2} & & \\ & & ...& \\ & & &\lambda _{n} \end{pmatrix}$

因此，我们要找的 P 是能让原始协方差矩阵对角化的 P

协方差矩阵对角化：
通过变换让协方差矩阵变成除对角线外的其它元素为0，并且对角线上的元素按从大到小的顺序排列
实对称矩阵：一个n行m列的实对称矩阵一定可以找到n个单位的正交特征向量 $E=(e_{1},e_{2},...,e_{n})$
$ECE^{T}=\Lambda =\begin{pmatrix} \lambda _{1}& & & \\ & \lambda _{2} & & \\ & & ...& \\ & & &\lambda _{n} \end{pmatrix}$

其中 $\Lambda$ 为对角矩阵，其对角元素为各特征向量对应的特征值

至此我们找到了让原始协方差矩阵对角化的 P，即 $P=E^{T}$
只要把特征值从大到小，对应的特征向量从上到下排列，则用前K行组成的矩阵乘以原始矩阵X，就得到了我们需要的降维后的数据矩阵Y

而对于变量间协方差为 0 且变量内方差尽可能大的问题，可以转化为最优化问题利用拉格朗日乘子法来给予推导

样本点 $x_{i}$ 在基 $\mathrm{w}$ 下的坐标为: $\left(x_{i}, w\right)=x_{i}^{T} w$ ，于是我们有方差:

$D (x)$

$=\frac{1}{m} \sum_{i=1}^{m}\left(x_{i}^{T} w\right)^{2}$

$=\frac{1}{m} \sum_{i=1}^{m}\left(x_{i}^{T} w\right)^{T}\left(x_{i}^{T} w\right)$

$=\frac{1}{m} \sum_{i=1}^{m} w^{T} x_{i} x_{i}^{T} w$

$=w^{T}\left(\frac{1}{m} \sum_{i=1}^{m} x_{i} x_{i}^{T}\right) w$

我们看到 $\frac{1}{m} \sum_{i=1}^{m} x_{i} x_{i}^{T}$ 就是原样本的协方差，我们另这个矩阵为 $\Lambda$ ，于是我们有:

$\left\{\begin{array}{r} \max \left\{w^{T} \Lambda w\right\} \\ \text { s.t. } w^{T} w=1 \end{array}\right.$

求约束条件下的极值问题, 我们直接用拉格朗日公式:

$\boldsymbol{L}(\boldsymbol{w})=\boldsymbol{w}^{\mathrm{T}} \Lambda \boldsymbol{w}-\lambda\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{w}-1\right)$

对其求 $\boldsymbol{w}$ 的导数：

$\frac{\mathrm{d} \boldsymbol{L}(\boldsymbol{w})}{\mathrm{d} \boldsymbol{w}}=\Lambda\boldsymbol{w}-\lambda \boldsymbol{w}$

令其为 0 , 得到
$\Lambda\boldsymbol{w}=\lambda \boldsymbol{w}$

此时，方差为：
$D(x)=w^{T} \Lambda w=\lambda w^{T} w=\lambda$

至此，对于PCA要找到一个投影直线L，使得所有的数据投影到该直线上的方差最大：

x投影后的方差就是协方差矩阵的特征值
投影后的最大方差就是协方差矩阵最大的特征值
最佳投影方向就是最大特征值所对应的特征向量
次佳就是第二大特征值对应的特征向量以此类推

感谢阅读🌼
如果喜欢这篇文章，记得点赞👍和转发🔄哦！
有任何想法或问题，欢迎留言交流💬，我们下次见！
本文相关代码存放位置
【特征工程操作练习2】

祝愉快🌟！

ToBeCertain

关注

32
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
特征工程 | 特征选择、特征降维

LDA的全称是Linear Discriminant Analysis，将带上标签的数据（点），通过投影的方法，投影到维度更低的空间中，只要把特征值从大到小，对应的特征向量从上到下排列，则用前K行组成的矩阵乘以原始矩阵X，就得到了我们需要的降维后的数据矩阵Y。坐标(3,2)之所以为(3,2)是因为我们确定了一个坐标系，换句话说就是确定了空间中的一组基，即(1,0)和(0,1)将多个具有相关性的特征综合为少数几个有代表性的特征，它们既能够代表原始特征的绝大多数信息，组合后的特征又不相关；
复制链接

扫一扫