机器学习简学

我不是麻神

已于 2023-12-01 11:12:16 修改

阅读量68

点赞数

文章标签：机器学习

于 2023-11-30 20:09:42 首次发布

本文链接：https://blog.csdn.net/weixin_45801672/article/details/134696531

版权

1、机器学习三要素包括数据、模型、算法。

（1）数据

数据驱动：数据驱动指的是我们基于客观的量化数据，通过主动数据的采集分析以支持决策。

（2）模型&算法

模型：在AI数据驱动的范畴内，模型指的是基于数据X做决策Y的假设函数，可以有不同的形态，计算型和规则型等。
算法：指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化的问题。

人工智能算法的分类：

机器学习算法：聚类算法、深度学习（神经网络）、强化学习等。
智能优化算法：遗传算法、粒子群算法、模拟退火等。
规划算法：线性规划、动态规划、路径规划等。

2、机器学习基本流程

在这里插入图片描述

数据预处理：输入（未处理的数据 + 标签）→处理过程（特征处理+幅度缩放、特征选择、维度约减、采样）→输出（测试集 + 训练集）。

模型学习：模型选择、交叉验证、结果评估、超参选择。

模型评估：了解模型对于数据集测试的得分。

新样本预测：预测测试集。

3、机器学习基本名词

监督学习（Supervised Learning）：训练集有标记信息，学习方式有分类和回归。

无监督学习（Unsupervised Learning）：训练集没有标记信息，学习方式有聚类和降维。

强化学习（Reinforcement Learning）：有延迟和稀疏的反馈标签的学习方式。

在这里插入图片描述

示例/样本：上面一条数据集中的一条数据。

属性/特征：「色泽」「根蒂」等。

属性空间/样本空间/输入空间X：由全部属性张成的空间。

特征向量：空间中每个点对应的一个坐标向量。

标记：关于示例结果的信息，如（（色泽=青绿，根蒂=蜷缩，敲声=浊响），好瓜），其中「好瓜」称为标记。

分类：若要预测的是离散值，如「好瓜」，「坏瓜」，此类学习任务称为分类。

假设：学得模型对应了关于数据的某种潜在规律。

真相：潜在规律自身。

学习过程：是为了找出或逼近真相。

泛化能力：学得模型适用于新样本的能力。一般来说，训练样本越大，越有可能通过学习来获得具有强泛化能力的模型。

4、机器学习算法分类

【1】机器学习算法分类

机器学习最主要的类别有：
监督学习：有数据有标签的学习方式。
从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。
监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。
常见的监督学习算法包括回归分析和统计分类。

无监督学习：有数据无标签的学习方式。
与监督学习相比，训练集没有人为标注的结果。
常见的无监督学习算法有生成对抗网络（GAN）、聚类。

强化学习：有延迟和稀疏的反馈标签的学习方式。
通过观察来学习做成如何的动作。
每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。

【2】机器学习算法分类、场景

1）分类问题

分类：根据数据样本上抽取出的特征，判定其属于有限个类别中的哪一个。

		应用以分类数据进行模型训练，根据模型对新样本进行精准分类与预测。
		它的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。分类问题可以细分如下：
		二分类问题：表示分类任务中有两个类别，新的样本属于哪种已知的样本类。
		多类分类（Multiclass classification）问题：表示分类任务中有多类别。
		标签分类（Multilabel classification）问题：给每个样本一系列的目标标签。

在这里插入图片描述

机器学习分类算法：KNN算法、逻辑回归算法、朴素贝叶斯算法、
决策树模型、随机森林分类模型、GBDT模型、XGBoost模型、支持向量机模型等。

2）回归问题

回归：根据对已知属性值数据的训练，为模型寻找最佳拟合参数，基于模型预测新样本的输出值。

根据数据样本上抽取的特征、预测连续值结果。
应用场景：《水门桥》票房值、某城市房价的具体值
回归算法：决策树模型、随机森林分类模型、GBDT模型、回归树模型、支持向量机模型等。

3）聚类问题

聚类：根据数据样本上抽取的特征，挖掘数据的关联模式

从海量数据中识别数据的相似性与差异性，并按照最大共同点聚合为多个类别。
应用场景：相似用户挖掘、新闻聚类

4）降维问题

对高维数据用低维数据进行表达；数据映射
PCA降维算法。

5）异常检测问题

对数据点的分布规律进行分析，识别与正常数据及差异较大的离群点。
应用：日常行为监控、风险识别、作弊检测

5、具体算法介绍

（第6章）无监督学习：

		聚类算法：k均值聚类、密度聚类（DBSCAN）、高斯混合聚类（EM算法）、层次聚类、谱聚类
		降维算法：

聚类的基本思想

	功能：将具有相似特征的数据划分到同一类别下。将数据集中的样本划分成若干个互不相交的子集，划分后被称为“簇”或“类”。
	特点：聚类开始前，类别概念未知，因此聚类过程是自动形成簇结构的过程。

1、K均值聚类的基本思想

	功能：根据样本到簇中心距离的大小决定样本所属类别
	特点：人工设定划分为k类，简称k均值算法（k-means）
	算法流程：
		（1）初始化
		给定k，随机选择k个样本作为簇中心
		（2）划分阶段
   		逐个计算每个样本与k个簇中心的距离，将每个样本划分到距离其最近的簇中心所属类别中
		（3）更新阶段
   		重新计算每个类的簇中心，即计算每个类中所有样本的均值向量作为新的簇中心
		（4）迭代结束判断
 		各个类的当前簇中心与上一次迭代的簇中心之间距离均小于设定的阈值时，则迭代终止，否则继续

在这里插入图片描述

	不足：由于k均值算法是基于样本与簇中心的距离进行分类的聚类算法，因此对非球状点云数据的聚类效果并不好

2、密度聚类算法思想

	思想：在聚类时考虑样本的密度，样本点某一邻域内的邻居点数量定义了该样本的密度
	特点：
	有的密度聚类算法中不需要预先指定类的数目，而且密度聚类算法能够较好的处理非球状数据，有较强的通用性。将簇定义为与密度相关联的点的集合，能够把具有足够高密度的区域划分为簇，并可在有噪声的空间数据集中发现任意形状的簇。
	功能：聚类、降噪
	算法的步骤：
	（1）从一个核心对象出发，不断向密度可达的区域扩张，找到包含核心点和边界点的最大区域。假设x为核心对象，那么由x密度可达的所有样本组成的集合记为X={x^′∈D|x^′由x密度可达┤} ，则集合X是满足最大性和连接性的簇
	（2）设有样本集合D={x_1,x_2,⋯,x_m}，算法将这些样本划分成k个簇和噪声点的集合，k是由算法确定
	（3）算法从样本集合中任选一个核心对象，由此出发确定相应的聚类簇
	（4）对于每一个样本点而言，要么它是聚类簇中的一个元素，要么它是噪声点
	（5）定义变量mi为样本xi所属的类别，如果它属于第j个簇，即有mi =j，否则其为噪声点，即有mi =－1；mi即为聚类算法的返回结果
	（6）用变量k表示当前的簇号，每发现一个新的簇，k值加1

3、均值漂移算法

	基本思想：根据任一点邻域内样本点的密度变大方向，寻找样本点局部密度最大区域
	具体思路：
	（1）任选一点作为起始中心点，并设定一个球形邻域的半径，寻找此邻域范围内的样本点密度的最快变大方向，然后将中心点不停地向样本点密度的最快变大方向漂移，直到找到一个局部最大密度区域
	（2）迭代中，中心点逐渐向点密度更大方向漂移，最终找到一个局部密度最大的区域及其中心点(图(c))
	（3）不停迭代，就可以找到多个局部最大密度区域，从而确定多个簇(图(d))
	（4）聚类完成后，有的样本点没有归到任何一个簇中，这些点就是噪点
	（5）点密度的最快变大方向是一个均值漂移向量的方向，因此将这种算法称为均值漂移算法
	（6）与DBSCAN算法相比，均值漂移算法能够更快地找到样本集中的所有密度相连点集合，因为DBSCAN算法没有明确的计算方向且重复搜索多，而均值漂移算法的搜索方向明确且重复搜索少
	（7）算法划分出的簇数量也与设定的球形邻域半径相关，当邻域半径很大时，将划分出较少的簇，聚类效果不明显；而当邻域半径过小时，划分出的簇可能太多；常需试算确定

4、高斯混合聚类

	算法思想：基于概率模型的聚类；假设样本集中属于不同类别的样本符合不同高斯分布，而聚类目的是找出具有相同分布的样本，并将其归到同一类中

5、层次聚类

	思想：基于样本之间的相似性，生成一个树状图，从而将样本聚集到层次化的类中。
	流程：
	（1）要设定拟划分出的类别数量
	（2）分为自下而上的聚合聚类以及自上而下的分裂聚类两种
	（3）聚合聚类开始时将每一个样本各看成一个类，然后将距离最近的两个类合并；不断重复该过程直到类的数量达到预设值
	（4）分裂聚类开始时将所有的样本作为一个类，然后将该类中距离最远两个点中的一个分离出，形成一个新的类，接着将旧类中距离新类更近的样本放进新类，这样就将一个类分裂成两个类；不断重复该过程直到类的数量达到预设值

6、谱聚类

（第7、8章）监督学习：

		分类算法：神经元感知机、支持向量机、逻辑回归、k临近算法、贝叶斯分类器
		深度学习（神经网络）：前馈神经网络、卷积神经网络
		回归分析：

深度学习：

	计算机视觉：
	图像表示：计算机眼中的图像
	一张图片被表示成三维数组的形式，每个像素的值从0到255，
	例如：300*100*3（表示图片：长*宽*图片颜色通道RGB）
（1）、前馈神经网络
场景：图像识别
概念：
构成：
工作流程：
训练过程：
（2）、卷积神经网络

（第9章）强化学习：

		马尔可夫过程、时序差分学习、三类方法的应用实例、Q学习在结构设计中的应用
		Q-learning：
		时间差学习：

（第10章）点云处理算法

		点云数据预处理、点云数据检测算法、点云数据分割算法、点云数据配准算法

6、机器学习模型评估与选择

1）机器学习与数据拟合

机器学习最典型的监督学习为分类与回归问题。
分类问题中，我们学习出来一条「决策边界」完成数据区分；
在回归问题中，我们学习出拟合样本分布的曲线。

在这里插入图片描述

2）训练集与数据集

训练集（Training Set）：帮助训练模型，简单的说就是通过训练集的数据让确定拟合曲线的参数。
测试集（Test Set）：为了测试已经训练好的模型的精确度。

当然，test set这并不能保证模型的正确性，只是说相似的数据用此模型会得出相似的结果。因为在训练模型的时候，参数全是根据现有训练集里的数据进行修正、拟合，有可能会出现过拟合的情况，即这个参数仅对训练集里的数据拟合比较准确，这个时候再有一个数据需要利用模型预测结果，准确率可能就会很差。

3）经验误差

在训练集的数据上进行学习。模型在训练集上的误差称为「经验误差」（Empirical Error）。但是经验误差并不是越小越好，因为我们希望在新的没有见过的数据上，也能有好的预估结果。

在这里插入图片描述

4）过拟合

过拟合，
指的是模型在训练集上表现的很好，但是在交叉验证集合测试集上表现一般，也就是说模型对未知样本的预测表现一般，泛化（Generalization）能力较差。

如何防止过拟合呢？
一般的方法有Early Stopping、数据集扩增（Data Augmentation）、正则化、Dropout等。
（1）正则化：
指的是在目标函数后面添加一个正则化项，一般有L1正则化与L2正则化。L1正则是基于L1范数，
即在目标函数后面加上参数的L1范数和项，即参数绝对值和与参数的积项。

（2）数据集扩增：
即需要得到更多的符合要求的数据，即和已有的数据是独立同分布的，或者近似独立同分布的。
一般方法有：从数据源头采集更多数据、复制原有数据并加上随机噪声、重采样、根据当前数据集估计数据分布参数，使用该分布产生更多数据等。

（3）DropOut：通过修改神经网络本身结构来实现的。

5）偏差

偏差（Bias），它通常指的是模型拟合的偏差程度。给定无数套训练集而期望拟合出来的模型就是平均模型。
偏差就是真实模型和平均模型的差异。

简单模型是一组直线，平均之后得到的平均模型是一条直的虚线，与真实模型曲线的差别较大（灰色阴影部分较大）。因此，简单模型通常高偏差 。

复杂模型是一组起伏很大波浪线，平均之后最大值和最小组都会相互抵消，和真实模型的曲线差别较小，因此复杂模型通常低偏差（见黄色曲线和绿色虚线几乎重合）。

6）方差

方差（Variance），它通常指的是模型的平稳程度（简单程度）。
简单模型的对应的函数如出一辙，都是水平直线，而且平均模型的函数也是一条水平直线，因此简单模型的方差很小，并且对数据的变动不敏感。

复杂模型的对应的函数千奇百怪，毫无任何规则，但平均模型的函数也是一条平滑的曲线，因此复杂模型的方差很大，并且对数据的变动很敏感。

7）偏差与方差的平衡

机器学习基础知识; 模型评估与选择; 偏差与方差 ;

8）性能度量指标

性能度量是衡量模型泛化能力的数值评价标准，反映了当前问题（任务需求）。使用不同的性能度量可能会导致不同的评判结果。

（1）回归问题

关于模型「好坏」的判断，不仅取决于算法和数据，还取决于当前任务需求。回归问题常用的性能度量指标有：平均绝对误差、均方误差、均方根误差、R平方等。

平均绝对误差（Mean Absolute Error，MAE），
又叫平均绝对离差，是所有标签值与回归模型预测值的偏差的绝对值的平均。

平均绝对百分误差（Mean Absolute Percentage Error，MAPE）
是对MAE的一种改进，考虑了绝对误差相对真实值的比例。

均方误差（Mean Square Error，MSE）
相对于平均绝对误差而言，均方误差求的是所有标签值与回归模型预测值的偏差的平方的平均。

均方根误差（Root-Mean-Square Error，RMSE），也称标准误差，是在均方误差的基础上进行开方运算。RMSE会被用来衡量观测值同真值之间的偏差。

R平方，决定系数，反映因变量的全部变异能通过目前的回归模型被模型中的自变量解释的比例。比例越接近于1，表示当前的回归模型对数据的解释越好，越能精确描述数据的真实分布。

（2）分类问题

分类问题常用的性能度量指标包括错误率（Error Rate）、精确率（Accuracy）、查准率（Precision）、查全率（Recall）、F1、ROC曲线、AUC曲线和R平方等。

错误率：分类错误的样本数占样本总数的比例。

精确率：分类正确的样本数占样本总数的比例。

查准率（也称准确率）
即在检索后返回的结果中，真正正确的个数占你认为是正确的结果的比例。

查全率（也称召回率）
即在检索结果中真正正确的个数，占整个数据集（检索到的和未检索到的）中真正正确个数的比例。

F1
是一个综合考虑查准率与查全率的度量，其基于查准率与查全率的调和平均定义：即：F1度量的一般形式-Fβ，能让我们表达出对查准率、查全率的不同偏好。

ROC曲线（Receiver Operating Characteristic Curve）
综合考虑了概率预测排序的质量，体现了学习器在不同任务下的「期望泛化性能」的好坏。ROC曲线的纵轴是「真正例率」（TPR），横轴是「假正例率」（FPR）。

AUC（Area Under ROC Curve）
是ROC曲线下面积，代表了样本预测的排序质量。

从一个比较高的角度来认识AUC：仍然以异常用户的识别为例，高的AUC值意味着，模型在能够尽可能多地识别异常用户的情况下，仍然对正常用户有着一个较低的误判率（不会因为为了识别异常用户，而将大量的正常用户给误判为异常。

9）评估方法

我们手上没有未知的样本，如何可靠地评估？关键是要获得可靠的「测试集数据」（Test Set），即测试集（用于评估）应该与训练集（用于模型学习）「互斥」。

常见的评估方法有：留出法（Hold-out）、交叉验证法（ Cross Validation）、自助法（Bootstrap）。

留出法（Hold-out）
它会从训练数据中保留出验证样本集，这部分数据不用于训练，而用于模型评估。

交叉验证法（ Cross Validation）。
k 折交叉验证对 k 个不同分组训练的结果进行平均来减少方差，因此模型的性能对数据的划分就不那么敏感，对数据的使用也会更充分，模型评估结果更加稳定。

自助法（Bootstrap）
是一种用小样本估计总体值的一种非参数方法，在进化和生态学研究中应用十分广泛。
Bootstrap通过有放回抽样生成大量的伪样本，通过对伪样本进行计算，获得统计量的分布，从而估计数据的整体分布。

10）模型调优与选择准则

我们希望找到对当前问题表达能力好，且模型复杂度较低的模型：

表达力好的模型，可以较好地对训练数据中的规律和模式进行学习；
复杂度低的模型，方差较小，不容易过拟合，有较好的泛化表达。

11）如何选择最优的模型

（1）验证集评估选择
切分数据为训练集和验证集。
对于准备好的候选超参数，在训练集上进行模型，在验证集上评估。
（2）网格搜索/随机搜索交叉验证
通过网格搜索/随机搜索产出候选的超参数组。
对参数组的每一组超参数，使用交叉验证评估效果。
选出效果最好的超参数。
（3）贝叶斯优化
基于贝叶斯优化的超参数调优。