sklearn 之 PCA降维算法

最新推荐文章于 2023-10-15 20:42:26 发布

追梦小凯

最新推荐文章于 2023-10-15 20:42:26 发布

阅读量2.5k

点赞数

分类专栏： sklearn调包侠文章标签：机器学习人工智能统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50730517/article/details/123333008

版权

sklearn调包侠专栏收录该内容

4 篇文章 0 订阅

订阅专栏

sklearn.decomposition.PCA

重要接口：

fit

transform：用训练好的模型对数据进行转换

fit_transform：二合一

inverse_transform：【pca.inverse_transform(数据集) ，就是把降维后的数据集按照原来的框架升维回去，但不能完全将数据重置回去，可以用来降噪】

重要参数

n_components：

根据我们的降维目标来选取，如果我们希望可视化一组数据来观察数据分布，我们往往将数据降到三维以下，很多时候是二维，即n_components的取值为2。

svd_solver：是pca与svd混合起来使用，太过复杂，默认为auto。先选auto再选randomized，一般不用full

重要属性

components_: 可以查看 svd中的V(k,n)，也就是构造新特征的框架，然后再用transform将数据填入新的框架。

explained_variance_，查看降维后每个新特征向量上所带的信息量大小（可解释性方差的大小）

explained_variance_ratio_，查看降维后每个新特征向量所占的信息量占原始数据总信息量的百分比（方差贡献率）

小tips

当n_components默认为原有特征数量时，可以使用explained_variance_ratio_来看每个特征的所占信息量的大小，从而帮助我们来判断需要多少个特征，还可以配合np.cumsum来画图

n_components的其他参数

mle：最大似然估计自选超参数

svd_solver: n_components 输入[0,1]之间的浮点数，并且让参数svd_solver ==‘full’，表示希望降维后的总解释性方差占比大于n_components指定的百分比，即是说，希望保留百分之多少的信息量。

注意事项

PCA 和 SVD 属于特征创造，创造出来的特征没有可读性，
在探索特征与标签之间关系的模型（如线性回归），应使用特征选择。

PCA使用的信息量衡量指标，就是样本方差，又称可解释性方差，方差越大，特征所带的信息量越多。

pca和svd的特征创造都要经历这些步骤

总结

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sklearn 之 PCA降维算法

sklearn.decomposition.PCA重要接口：fittransform：用训练好的模型对数据进行转换fit_transform：二合一inverse_transform：【pca.inverse_transform(数据集) ，就是把降维后的数据集按照原来的框架升维回去，但不能完全将数据重置回去，可以用来降噪】重要参数n_components：根据我们的降维目标来选取，如果我们希望可视化一组数据来观察数据分布，我们往往将数据降到三维以下，很多时候是二维，即n_componen
复制链接

扫一扫

专栏目录

追梦小凯 CSDN认证博客专家 CSDN认证企业博客

码龄4年

31: 原创

51万+: 周排名

65万+: 总排名

3万+: 访问

: 等级

343: 积分

714: 粉丝

24: 获赞

8: 评论

54: 收藏

私信

关注

热门文章

分类专栏

最新评论

python使用代理时报错ssl.SSLEOFError: EOF occurred in violation of protocol (_ssl.c:1129)
即使再小的帆也能远航~: 成功了
python的数据库Class写法
CSDN-Ada助手: 非常棒的博客！很高兴看到你分享了关于Python数据库Class写法的知识。如果你对Python数据可视化有兴趣的话，我非常推荐你写一篇关于Python数据可视化的博客，可以分享你对数据可视化的理解，以及Python中的可视化工具库使用方法等。期待你的下一篇博客！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
python使用代理时报错ssl.SSLEOFError: EOF occurred in violation of protocol (_ssl.c:1129)
weixin_45456323: 我的就是代理IP质量问题
python使用代理时报错ssl.SSLEOFError: EOF occurred in violation of protocol (_ssl.c:1129)
tt0059: 你好，你这边解决了吗
python使用代理时报错ssl.SSLEOFError: EOF occurred in violation of protocol (_ssl.c:1129)
qq_36516841: 你好你这边解决了吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。