机器学习基础算法(3)数据降维，数据的划分以及转换器和估计器

最新推荐文章于 2023-09-17 23:42:56 发布

weixin_51182518

最新推荐文章于 2023-09-17 23:42:56 发布

阅读量261

点赞数

文章标签：算法机器学习 python

本文链接：https://blog.csdn.net/weixin_51182518/article/details/110748650

版权

本文介绍了机器学习中的数据降维方法，包括特征选择和主成分分析，强调了降维的重要性以及PCA的运用。同时，讲解了机器学习算法的分类，如监督学习和无监督学习，并详细阐述了开发流程，包括数据集划分和转换器、估计器的概念。

摘要由CSDN通过智能技术生成

数据降维

维度：特征的数量

为什么要降维：删除一些不必要的特征

特征选择
主成分分析

特征选择

特征选择的原因

冗余：部分特征相关度高，容易消耗计算性能
噪声：部分特征对预测结果有影响

特征选择的主要方法

filter 过滤式 variance threshold
embedded 嵌入式正则化、决策树
wrapper 包裹式

过滤式特征选择

sklearn.feature_selection.VarianceThreshold

在这里插入图片描述

代码演示

from sklearn.feature_selection import VarianceThreshold

def var():
    #特征选择
    var=VarianceThreshold(threshold=1.0) #取值根据实际的需求
    data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
    print(data)

if __name__=="__main__":
    var()

在这里插入图片描述

主程序分析

在这里插入图片描述

特征数需要达到上百个才考虑去做pca

特征之间容易相关对于高纬度数据来说

最低0.47元/天解锁文章

weixin_51182518

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础算法(3)数据降维，数据的划分以及转换器和估计器

数据降维维度：特征的数量为什么要降维：删除一些不必要的特征特征选择主成分分析特征选择特征选择的原因冗余：部分特征相关度高，容易消耗计算性能噪声：部分特征对预测结果有影响特征选择的主要方法filter 过滤式 variance thresholdembedded 嵌入式正则化、决策树wrapper 包裹式过滤式特征选择sklearn.feature_selection.VarianceThreshold代码演示from sk
复制链接

扫一扫