机器学习概述

最新推荐文章于 2025-04-02 08:39:04 发布

ββ我是舒克

最新推荐文章于 2025-04-02 08:39:04 发布

阅读量288

点赞数 1

分类专栏：机器学习入门文章标签：机器学习机器学习入门机器学习分类机器学习方法机器学习评估

本文链接：https://blog.csdn.net/weixin_44054142/article/details/88611058

版权

机器学习入门专栏收录该内容

4 篇文章

订阅专栏

一、机器学习流程

获取数据–数据预处理–特征工程–模型训练–模型评估

二、机器学习算法分类

1.监督学习

定义：输入数据是由输入特征值和目标值所组成，即输入的训练数据为有标签的

1.1回归问题：

用于预测输入变量和输出变量之间的关系，回归问题可以等价于函数的拟合：选择一条函数曲线，使其很好的拟合已知数据，且很好的预测未知数据。是一种定量输出，也叫连续变量预测。回归问题分为两个过程：学习和预测。按照输入变量的个数分为：一元回归和多元回归；按照输入和输出变量之间的关系分为：线性回归和非线性回归。常用的损失函数是平方损失函数

1.2分类问题：

在监督学习中，输出变量取有限个离散值即是分类问题，推断对应的类别，属于定性输出，也叫离散变量预测，同样包括学习和分类两种过程，通过数据学习到的分类模型或者分类函数，叫做分类器。常用算法：KNN，决策树、朴素贝叶斯法、支持向量机、等等等等。

2.无监督学习

输入数据没有被标记，也没有确定的结果，即样本数据类别未知，没有标签，需要根据样本间的相似性对样本集进行聚类，以发现事物内部结构及相互关系。无监督学习是在寻找数据集中的规律性，这种规律性并不一定要达到划分数据集的目的，也就是说不一定要‘分类’。

2.1聚类

物以类聚，根据输入的数据建立模型，不考虑分类标签，通过学习，发现数据间的关系，将相似的实例分在同一组。

2.2降维

3.半监督学习

训练集数据一部分有标签而其余部分无标签，即训练集同时包含有标记样本和无标记样本。
多数情况下，数据成本昂贵，主要是已标记的实例较少，且类似医学等专业数据需要专业人员标记，成本较高，实际中更多地是未打标签的数据。半监督学习的思想就是使用一部分有标签的训练集和一部分无标签训练集学习，以提高模型的准确率。

4.强化学习

定义：实质是make decisions问题，即自动进行决策，并且可以做连续决策希望一段时间后获得最多的累计奖励。主要包含四个要素：agent、环境状态、行动、奖励。

5.各算法间区别

在这里插入图片描述

三、模型评估

1.回归问题的评估

1.1 RMSE：平方误差

在这里插入图片描述
通常是回归任务的首选性能衡量指标，但对于异常值比较敏感

1.2 MAE：绝对值误差

在这里插入图片描述

1.3 R²：决定系数

在这里插入图片描述

决定系数（coefficient of determination，R²）是反映模型拟合优度的重要的统计量，为回归平方和与总平方和之比。R²取值在0到1之间，且无单位，其数值大小反映了回归贡献的相对程度，即在因变量Y的总变异中回归关系所能解释的百分比。R²是最常用于评价回归模型优劣程度的指标，R2越大（接近于1），所拟合的回归方程越优。

2.分类问题的评估

2.1混淆矩阵

在这里插入图片描述

2.2精确率和召回率

精确率：预测为正例里预测对了的比例
在这里插入图片描述
召回率：所有正例中预测对了的比例

2.3 F分数

F分数：根据实际问题提需要权衡考虑召回率和精确率
在这里插入图片描述

2.4ROC曲线以及AUC

ROC曲线是根据一系列不同的二分类方式（分界值或决定阈），以TPR真阳性率（灵敏度）为纵坐标，FPR假阳性率（1-特异度）为横坐标绘制的曲线。也就是说在你给定不同的阈值时会有不同的TPR和FPR的坐标点，连点成线的叫做ROC曲线。
在这里插入图片描述
最完美的分类器（完全区分正负样例）：过（0,1）点，即没有FP，全是TP曲线越“凸”向左上角，说明分类器效果越好，即曲线上离（0,1）越近的点分类效果越好随机预测会得到（0,0）和（1,1）的直线上的一个点
在这里插入图片描述
AUC(area under thecurve)，也就是ROC曲线的下夹面积，越大说明分类器越好，最大值是1，图中的蓝色部分就是AUC