特征选择和特征提取（一、概述）

最新推荐文章于 2023-06-10 08:59:34 发布

攻城狮客栈

最新推荐文章于 2023-06-10 08:59:34 发布

阅读量2.5k

点赞数 4

分类专栏： AI学习记录文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/xiansenLee/article/details/114869439

版权

AI学习记录专栏收录该内容

7 篇文章 1 订阅

订阅专栏

特征选择和特征提取属于图像处理领域最基本的操作。

再这之前，我们先来了解一下卷积和滤波，像平时我们听到的CNN，就是使用卷积操进行图像的滤波操作，简单来说，滤波是图像处理的操作，而卷积是实现滤波的方法。一个是图像处理概念，一个是数学概念。

而特征，其实就是我们要从图像中提取的可以描述图像的性质，简单理解，像边缘、角、轮廓等都属于图像的特征，而图像处理就是通过机器学习的方式得到图像中的这些特征，从而用这些特征来实现图像识别、物体检测等等。

那么，滤波和特征有有什么关系呢？其实，正常的滤波操作，都是通过卷积核来对图像进行操作的，而卷积核就是用来提取特征的，简单来说，想要从图像中提取几个特征，就定义几个卷积核来对图像进行处理即可。等学习完成，即可通过得到的这些特征来实现对应的用途。

那么，特征到底是什么，在机器学习中又是什么格式的，是如何存储的呢？下面，就一块通过特征选择和特征提取来一块了解一下吧！

特征选择

对同一问题进行研究，我们可以从不同的维度出发、不同的角度来考虑，再衡量结果时，我们会根据不同因素所占的比重来对其进行区分，同样的，在机器学习过程中，不论是cv领域还是nlp领域，在处理问题时，都会得到很多不同的特征，同样，我们也可以用其中的某些特征来替代全部特征对问题进行描述（达到一定的占比）。这即是特征选择的理解。

这里延伸一下，特征一般分为相关特征、无关特征和冗余特征，分别指对问题学习有帮助的、无帮助的及可以从其他特征推到得到的特征。

另外，我们需要了解，特征选择的意义，在机器学习的过程中，增加一个特征的处理意味着要进行更多的计算，而有些特征对问题处理的贡献很小，因此，我们可以理解，特征选择其实是一种降维处理，目的是减少特征数量，加快模型训练速度，提高学习效率，同时，保证模型的正确度不会损失太多。其要实现的效果是选择尽可能少的子特征，模型的效果不会显著下降，并且
结果的类别分布尽可能的接近真实的类别分布。

那么，特征选择是怎样进行处理的呢？

主要有4个步骤，分别是：

生成过程：生成不同的候选特征子集
评价函数：用于评价特征子集的好坏
停止条件：决定何时停止（最大迭代次数、达到设定的阈值等）
验证函数：用于验证得到的子集是否有效。

特征提取

从字面简单理解，特征提取用于提取特征，而非选择，其区别在于，提取是从已有的特征中提取出其他的特征，而非选择已有特征。特征提取也是一种降维算法，其主要目的也是为了减小计算量，提高模型效率。

而特征提取一般使用的方法是主成分分析（PCA）方法。

PCA简单理解，就是从M个特征中，提取出N个有同样效果的特征，举个例子，如果有一个三维坐标系（x,y,z），我们通过平移和旋转等操作，得到一个某一维度的值几乎为0的坐标系（a,b,c），若c为0，则我们可以认为二维坐标系（a,b）下的数据包含了(x,y,z)下数据的全部特征，因为(x,y,z)下的数据，同样可以用(a,b)来表示。

PCA方法的步骤一般为：