#第18篇分享：python机器学习-sklearn简介（初识0）

最新推荐文章于 2024-02-04 14:52:50 发布

天甜费，

最新推荐文章于 2024-02-04 14:52:50 发布

阅读量516

点赞数

分类专栏： Skicit-learn python 文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/weixin_46008828/article/details/111501747

版权

python 同时被 2 个专栏收录

24 篇文章 1 订阅

订阅专栏

Skicit-learn

12 篇文章 2 订阅

订阅专栏

#python机器学习-sklearn学习笔记：人生若只如初见

sklearn与tensorflow区别：区别

1.sklearn做什么的：

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具，是机器学习中的常用第三方模块。
它建立在 NumPy，SciPy，Pandas 和 Matplotlib 之上，里面的 API 的设计非常好，所有对象的接口简单，对常用的机器学习方法进行了封装，包括分类(Classfication)、回归(Regression)、降维(Dimensionality Reduction)、聚类(Clustering)等方法，是针对小型数据集的机器学习算法。
在这里插入图片描述

2.机器学习的种类及意义：
①监督学习（Supervised learning）
有训练值也叫特征值和目标值也叫标签，基本分有两类问题：回归问题（连续的）和分类问题（离散的）；
比如一个分类问题： 我们选取一群男生身高、工作、长相等特征，作为训练值，把有没有女朋友作为目标值；那么在随遍大街拉个人，把特征输入我们训练的模型，就能大致知道他是否有女朋友，这是一个二分类问题，结果就是有没有。
比如一个回归问题： 我们知道北京的二手房位置，户型，电梯有无，购房年限等，输入以上的特征，我们就可以预测房子的每平米的价格，价格是一个连续值，我们就说他是回归的。

②无监督学习
无监督学习：输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类）试图使类内差距最小化，类间差距最大化；[KMeans]
比如一个客户分类问题： 我们知道了客户的浏览习惯，购买情况，收藏情况，我们就可以对客户尽心一个分类，然后有针对性的进行推荐；
比如一个降维的问题： 我们拿到了一张图片，图片上有很多像素点，颜色的特征非常多，那么我们就可以选取一定的质心，对颜色的特征进行聚类，从而得到一个颜色特征聚类后的图片，相对于原图片算是降维的一种体现。

③半监督学习
半监督学习：即训练集同时包含有标记样本数据和未标记样本数据。
没做过，来个概念占个坑，遇到后来更新：
半监督学习(Semi-Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。当使用半监督学习时，将会要求尽量少的人员来从事工作，同时，又能够带来比较高的准确性，因此，半监督学习正越来越受到人们的重视。

④强化学习
实质是：智能体不断与环境进行交互，通过试错的方式来获得最佳策略。
强化学习四要素：状态(state)、动作(action)、策略（policy）、奖励(reward)。
不懂不瞎说，占个坑。

3.sklearn算法的简介：

a.sklearn算法简介： 我们今天介绍的sklearn就是机器学习的一个python模块，利用这个模块可以很容易的实现数据的训练及预测；在学习过程我们可以从算法入手，主要介绍监督学习算法与无监督学习算法以及数据的预处理：特征优化及降维：

①.监督学习算法： 监督学习主要就是人为处理好一个规整的易于识别特征与标签数据用作训练，所以数据处理及调整参数是我们不容忽视的重中之重。
分类算法： KNN（K近邻），朴素贝叶斯、分类决策树、分类随机森林，逻辑回归，分类SVM（支持向量机）；
回归算法： 线性回归，岭回归，回归决策树，回归随机森林，回归SVM（支持向量机）；
②.无监督学习的KMeans： 无监督学习实际应用也是比较多的，我们也需要了解一下，主要先进行比较简单的Kmeans学习。

③.数据预处理及降维： 有时候原始数据输入进模型效果不会很好，甚至有的是字符串数据根本不能直接输入模型，所以这时候就要进行数据预处理：字符串转化为数值，数值进行压缩归一化或者标准化；特征进行压缩：加速算法的运行速度：特征删除，特征维度压缩PCA。
④.基本概念：转换器与估计器：
‘’’
转换器：实现特征工程的API；
fit_transform：传入数据并转化：
fit传入数据：会做些平均值方差等运算；
transform：转换数据；
注意：fit之后，如果再次调用transform，会以fit计算的方差及均值进行转换，所以训练集和测试集的特征转化用同一个fit也是可以的。

估计器：实现算法的API：estimator
分类：离散->k近邻，朴素贝叶斯，逻辑回归，决策树&随机森林，，，等等
回归：连续->线性回归，岭回归，，，，，等等

算法的参数很重要；门槛就在这里面。
‘’’

官方给出的寻找合适算法的图解：供参考
在这里插入图片描述

机器学习真的相对比较难的一部分了，从最开始的什么都不懂，逐渐开始明白了一些东西了；里面涉及到了很多的数学问题，在这个学习过程中我们才会感觉到什么叫学无止境；我们最开始可能学会应用，然后逐渐理解里面算法，之后就要考虑大数据方面的计算，之后我们要学习的还有很多很多；我并不恐惧，更多的是兴奋，因为学习的过程让我觉得我的生活是有意义的，是值得我持续为之奋斗的，前路漫漫，不负遇见。

人的一生遇见自己喜欢的值得付出的事情不容易，无论是爱情亦或是事业，唯有不断成熟，不断奋斗，才是值得的人生；前几天看见一句话感觉不错，人的一生其实就是一场灵魂的修炼，有的人活的很久，但是灵魂却不见得纯粹，有些人短短一生，灵魂却澄澈明亮，这在于选择，也在于信仰和坚持。
#持续更新，，，，，，，