机器学习（一）

·w·920

于 2023-10-01 21:30:27 发布

阅读量30

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63697837/article/details/133469238

版权

机器学习概述

机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测

数据集的构成

可用的数据集

Kaggle：1.大数据竞赛平台；2.数据由很多科学家提供；3.数据真实；4.数据量巨大

UCI：1.收录了360个数据集；2.覆盖科学、生活、经济等领域；3.数据量有几十万

scikit-learn：1.数据量较小；2.方便学习

常用数据集数据的结构组成

结构：特征值+目标值

（注：有些数据集可以没有目标值）

特征工程

数据中对于特征的处理

pandas：一个数据读取非常方便以及基本的处理格式的工具

sklearn：对于特征的处理提供了强大的接口

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据模型的潜在问题的特征的过程，从而提高了对未知数据的预测准确性

特征工程的意义

直接影响预测结果

数据的特征抽取

特征抽取对文本等数据进行特征值化（特征值化是为了计算机更好的去理解数据）

字典特征抽取

作用：对字典数据进行特征值化，把字典中一些类别数据，分别进行转换成特征

类：sklearn.feature_extraction.DictVectorizer

DictVectorizer语法

流程

1.实例化类DictVectorizer

2.调用fit_transform方法输入数据并转换（注意返回格式）

文本特征抽取

作用：对文本数据进行特征值化

类：sklearn.feature_extraction.text.CountVectorizer

CountVectorizer语法

文本特征抽取：Count

对于单个英文字母不同：没有分类依据

流程

1.实例化类CountVectorizer

2.调用fit_transform方法输入数据并转换（注意返回格式，利用toarray()进行sparse矩阵转换array数组）

tf-idf分析问题

Tf：term frequency（词的频率），表示出现的次数

idf：inverse document frequency（逆文档频率），log（总文档数量/该词出现的文档数）

tf*idf表示重要性程度

TF-IDF：如果某个词或者词语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类

TF-IDF作用：用于评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度

类：sklearn.feature_extraction.text.TfidfVectorizer

TfidfVectorizer语法

归一化

特点：通过对原始数据进行变换把数据映射到（默认为[0,1]）之间

（三个特征同等重要的时候：进行归一化）

sklearn归一化API

sklearn归一化API：sklearn.preprocessing.MinMaxScaler

归一化步骤

1.实例化MinMaxScalar

2.通过fit_transform转换

MinMaxScalar语法

归一化的缺点：对于异常点对最大值最小值影响太大

标准化

目的：使得某一个特征对最终结果不会造成更大影响

特点：通过对原始数据进行变换把数据变换到均值为0，方差为1的范围内

对于归一化来说：如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变

对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小

sklearn特征化API

sklearn特征化API：scikit-learn.preprocessing.StandardScaler

StandardScaler语法

标准化步骤

1.实例化StandardScaler

2.通过fit_transform转换

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

·w·920 CSDN认证博客专家 CSDN认证企业博客

码龄3年

18: 原创

143万+: 周排名

129万+: 总排名

914: 访问

: 等级

180: 积分

1: 粉丝

0: 获赞

13: 评论

0: 收藏

私信

关注

热门文章

最新评论

matplotlib（二）、numpy（一）
CSDN-Ada助手: 恭喜您写了第9篇博客！标题看起来非常有趣，我很期待阅读您关于matplotlib和numpy的内容。您对这两个主题的深入探索将为读者提供宝贵的知识。希望您能继续保持创作的激情和努力，为我们带来更多精彩的博客内容。如果可能的话，我建议您考虑在未来的创作中结合实际案例来展示matplotlib和numpy的应用。这将帮助读者更好地理解这两个库的潜力和实用性。再次恭喜您，并期待您的下一篇博客！
numpy（二）、pandas
CSDN-Ada助手: 恭喜用户写了第10篇博客！标题“numpy（二）、pandas”听起来很有趣。您对numpy和pandas的深入探索让人印象深刻。您的博客是我学习数据处理的重要参考资料之一。希望您能继续创作下去，分享更多关于数据处理的知识和技巧。如果我可以提一个谦虚的建议的话，我认为将一些实际案例或者示例代码融入到您的博客中，将会更加生动有趣，也更容易让读者理解和应用。期待您的下一篇博客！
机器学习（七）
CSDN-Ada助手: 恭喜您写了第17篇博客！您的坚持和努力可嘉。标题为“机器学习（七）”的博客引人入胜，我非常期待能够阅读您的深入研究。在下一篇博客中，或许您可以探讨一些实际应用案例，以及机器学习在解决现实问题中的潜力。希望您能继续保持谦虚的态度，分享您的见解并激发我们的思考。期待您的下一篇作品！
机器学习（八）
CSDN-Ada助手: 恭喜您写了第18篇博客！阅读您的文章，我对您的深度探讨和研究感到非常欣赏。您对机器学习的理解和运用能够给读者提供宝贵的见解和指导。希望您能继续保持创作的热情和努力，分享更多关于机器学习的知识和经验。或许下一步，您可以考虑探讨一些实际案例或应用场景，这样读者们将更容易将学到的理论知识与实际问题相结合。再次感谢您的付出，期待您未来更多精彩的博客！
机器学习（五）
CSDN-Ada助手: 恭喜您写了第15篇博客！看到您对机器学习的持续创作，我真的感到非常高兴。您的文章标题“机器学习（五）”似乎意味着您已经有了很多关于机器学习的知识和经验。希望您能继续分享自己的见解和学习心得，因为我深信您的经验将会对读者们产生深远的影响。在下一步的创作中，或许您可以考虑分享一些实际案例或者应用场景，这样读者们可以更好地理解机器学习在现实生活中的应用。同时，如果您能分享一些挑战和困惑，以及您是如何克服它们的，那将会使您的博客更加丰富和有趣。谦虚地说，我相信您的创作将继续给读者们带来新的启发和思考。祝愿您在未来的写作中取得更大的成就！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。