问题一:什么是降维?
降维是指通过保留一些比较重要的特征,去除一些冗余的特征,减少数据特征的维度。而特征的重要性取决于该特征能够表达多少数据集的信息,也取决于使用什么方法进行降维。一般情况会先使用线性的降维方法再使用非线性的降维方法,通过结果去判断哪种方法比较合适。
问题二:在哪里用到降维?
1)特征维度过大,可能会导致过拟合时
2)某些样本数据不足的情况(缺失值很多)
3)特征间的相关性比较大时
问题三:降维的好处?
(1)节省存储空间;
(2)加速计算速度,维度越少,计算量越少,并且能够使用那些不适合于高维度的算法;
(3)去除一些冗余的特征(原数据中既有平方米和平方英里的特征--即相关性大的特征)
(4)便于观察和挖掘信息(如将数据维度降到2维或者3维使之能可视化)
(5)特征太多或者太复杂会使得模型过拟合。