机器学习（二）

最新推荐文章于 2024-09-26 16:29:40 发布

·w·920

最新推荐文章于 2024-09-26 16:29:40 发布

阅读量39

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63697837/article/details/133470033

版权

标准化总结

在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景

缺失值的处理

1.删除：如果每列或者行数据缺失值达到一定的比例，建议放弃整行或者整列

插补：可以通过缺失值每行或者每列的平均值、中位数来填充

2.sklearn缺失值API：sklearn.preprocessing.Imputer

Imputer语法

Imputer流程

1.初始化Imputer，指定“缺失值”，指定填补策略，指定行或列（缺失值也可以是别的指定要替换的值）

2.调用fit_transform

关于np.nan(np.nan)

1.numpy的数组中可以使用np.nan/np.nan来代替缺失值，属于float类型

2.如果是文件中的一些缺失值，可以替换成nan，通过np.array转化成float型的数组即可

特征的预处理

特征的预处理：对数据进行处理

通过特定的统计方法（数学方法）将数据转换成算法要求的数据

数值型数据：标准缩放：1.归一化 2.标准化 3.缺失值

类别型数据：one-hot编码

时间类型：时间的切分

sklearn特征处理API

sklearn.preprocessing

归一化

特点：通过对原始数据进行变换把数据映射到（默认为[0,1]）之间

数据的降维之特征选择

维度（数组的维度）

降维：维度（特征的数量）

特征选择

特征选择的原因：冗余：部分特征的相关度高，容易消耗计算性能；噪声：部分特征对预测结果有影响

特征选择：就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小，因为只选择了其中的一部分特征

sklearn特征选择API

sklearn.feature_selection.VarianceThreshold

VarianceThreshold语法

VarianceThreshold流程

1.初始化VarianceThreshold，指定阀值方差

2.调用fit_transform

PCA（主成分分析）

本质：PCA是一种分析、简化数据集的技术

目的：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息

作用：可以削减回归分析或者巨类分析中特征的数量

sklearn主成分分析API

sklearn.decomposition

PCA语法

n_components:小数形式（百分比：一般是0～1），整数形式（一般不使用）

PCA流程

1.初始化PCA，指定减少的维度

2.调用fit_transform

sklearn数据集

数据集划分

训练集（训练数据）：用于训练，构建模型

测试集（测试数据）：在模型检验时使用，用于评估模型是否有效

sklearn数据集划分API

sklearn.model_selection.train_test_split

scikit-learn数据集API介绍

获取数据集返回的类型

sklearn分类数据集

数据集进行分割

用于分类的大数据值

转换器与预估器

转换器

fit_transform()：输入数据直接转换

fit():输入数据，但不做转换

transform()：进行数据的转换

fit_transform()=fit()+transform()

估计器

在sklearn中，估计器是一类实现了算法的API

估计器的流程

1.调用fit

fit(x_train,y_train)

2.输入预测试集的数据

（1.y_predict=predict(x_test)

2.预测的准确率：score(x_test,y_test)）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

·w·920 CSDN认证博客专家 CSDN认证企业博客

码龄3年

18: 原创

143万+: 周排名

129万+: 总排名

914: 访问

: 等级

180: 积分

1: 粉丝

0: 获赞

13: 评论

0: 收藏

私信

关注

热门文章

最新评论

matplotlib（二）、numpy（一）
CSDN-Ada助手: 恭喜您写了第9篇博客！标题看起来非常有趣，我很期待阅读您关于matplotlib和numpy的内容。您对这两个主题的深入探索将为读者提供宝贵的知识。希望您能继续保持创作的激情和努力，为我们带来更多精彩的博客内容。如果可能的话，我建议您考虑在未来的创作中结合实际案例来展示matplotlib和numpy的应用。这将帮助读者更好地理解这两个库的潜力和实用性。再次恭喜您，并期待您的下一篇博客！
numpy（二）、pandas
CSDN-Ada助手: 恭喜用户写了第10篇博客！标题“numpy（二）、pandas”听起来很有趣。您对numpy和pandas的深入探索让人印象深刻。您的博客是我学习数据处理的重要参考资料之一。希望您能继续创作下去，分享更多关于数据处理的知识和技巧。如果我可以提一个谦虚的建议的话，我认为将一些实际案例或者示例代码融入到您的博客中，将会更加生动有趣，也更容易让读者理解和应用。期待您的下一篇博客！
机器学习（七）
CSDN-Ada助手: 恭喜您写了第17篇博客！您的坚持和努力可嘉。标题为“机器学习（七）”的博客引人入胜，我非常期待能够阅读您的深入研究。在下一篇博客中，或许您可以探讨一些实际应用案例，以及机器学习在解决现实问题中的潜力。希望您能继续保持谦虚的态度，分享您的见解并激发我们的思考。期待您的下一篇作品！
机器学习（八）
CSDN-Ada助手: 恭喜您写了第18篇博客！阅读您的文章，我对您的深度探讨和研究感到非常欣赏。您对机器学习的理解和运用能够给读者提供宝贵的见解和指导。希望您能继续保持创作的热情和努力，分享更多关于机器学习的知识和经验。或许下一步，您可以考虑探讨一些实际案例或应用场景，这样读者们将更容易将学到的理论知识与实际问题相结合。再次感谢您的付出，期待您未来更多精彩的博客！
机器学习（五）
CSDN-Ada助手: 恭喜您写了第15篇博客！看到您对机器学习的持续创作，我真的感到非常高兴。您的文章标题“机器学习（五）”似乎意味着您已经有了很多关于机器学习的知识和经验。希望您能继续分享自己的见解和学习心得，因为我深信您的经验将会对读者们产生深远的影响。在下一步的创作中，或许您可以考虑分享一些实际案例或者应用场景，这样读者们可以更好地理解机器学习在现实生活中的应用。同时，如果您能分享一些挑战和困惑，以及您是如何克服它们的，那将会使您的博客更加丰富和有趣。谦虚地说，我相信您的创作将继续给读者们带来新的启发和思考。祝愿您在未来的写作中取得更大的成就！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。