【机器学习】 — 1、机器学习基础知识

_smile_c

已于 2023-11-21 17:18:13 修改

阅读量119

点赞数 5

分类专栏：机器学习文章标签：机器学习人工智能 python

于 2023-11-20 20:31:52 首次发布

本文链接：https://blog.csdn.net/weixin_70701760/article/details/134518109

版权

机器学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

1.机器学习概述

1）什么是机器学习

人工智能（Artificial intelligence）是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

机器学习（Machine learning）是人工智能的子集，是实现人工智能的一种途径，但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。

深度学习（Deep learning）是机器学习的子集，灵感来自人脑，由人工神经网络（ANN）组成，它模仿人脑中存在的相似结构。

2）机器学习三要素

机器学习三要素包括数据、模型、算法。

3）机器学习的核心技术

分类：应用以分类数据进行模型训练，根据模型对新样本进行精准分类与预测。
聚类：从海量数据中识别数据的相似性与差异性，并按照最大共同点聚合为多个类别。
回归：根据对已知属性值数据的训练，为模型寻找最佳拟合参数，基于模型预测新样本的输出值
异常检测：对数据点的分布规律进行分析，识别与正常数据及差异较大的离群点。

4）机器学习的基本流程

机器学习工作流（WorkFlow）包含数据预处理（Processing）、模型学习（Learning）、模型评估（Evaluation）、新样本预测（Prediction）几个步骤。

数据预处理：输入（未处理的数据 + 标签）→处理过程（特征处理+幅度缩放、特征选择、维度约减、采样）→输出（测试集 + 训练集）。
模型学习：模型选择、交叉验证、结果评估、超参选择。
模型评估：了解模型对于数据集测试的得分。
新样本预测：预测测试集。

5）机器学习应用场景

作为一套数据驱动的方法，机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别和机器人等领域。

智能医疗：智能假肢、外骨骼、医疗保健机器人、手术机器人、智能健康管理等。
人脸识别：门禁系统、考勤系统、人脸识别防盗门、电子护照及身份证，还可以利用人脸识别系统和网络，在全国范围内搜捕逃犯。
机器人的控制领域：工业机器人、机械臂、多足机器人、扫地机器人、无人机等。

2.机器学习基本名词

监督学习（Supervised Learning）：训练集有标记信息，学习方式有分类和回归。
无监督学习（Unsupervised Learning）：训练集没有标记信息，学习方式有聚类和降维。
强化学习（Reinforcement Learning）：有延迟和稀疏的反馈标签的学习方式。
示例/样本：上面一条数据集中的一条数据。
属性/特征：「色泽」「根蒂」等。
属性空间/样本空间/输入空间X：由全部属性张成的空间。
特征向量：空间中每个点对应的一个坐标向量。
标记：关于示例结果的信息，如（（色泽=青绿，根蒂=蜷缩，敲声=浊响），好瓜），其中「好瓜」称为标记。
分类：若要预测的是离散值，如「好瓜」，「坏瓜」，此类学习任务称为分类。
假设：学得模型对应了关于数据的某种潜在规律。
真相：潜在规律自身。
学习过程：是为了找出或逼近真相。
泛化能力：学得模型适用于新样本的能力。一般来说，训练样本越大，越有可能通过学习来获得具有强泛化能力的模型。

3.机器学习算法分类

机器学习最主要的类别有：监督学习、无监督学习和强化学习。

监督学习：从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。

无监督学习：与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络（GAN）、聚类、降维。

强化学习：通过观察来学习做成如何的动作。每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。

1）分类问题

分类问题是机器学习非常重要的一个组成部分。它的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。分类问题可以细分如下：

二分类问题：表示分类任务中有两个类别新的样本属于哪种已知的样本类。应用场景：垃圾邮箱分类。
多类分类（Multiclass classification）问题：表示分类任务中有多类别。应用场景：图像内容识别。
多标签分类（Multilabel classification）问题：给每个样本一系列的目标标签。

2）回归问题

根据数据样本上抽取出来的特征，预测连续值结果。

应用场景：某城市的房价具体值；电影票价值。

3）聚类问题

根据数据样本上抽取出来的特征，挖掘数据的关联模式

应用场景：新闻聚类；相似用户/社区发现

4）降维问题

对高维数据用低维数据进行表达：数据映射。

4.机器学习模型评估与选择

1）机器学习与数据拟合

机器学习最典型的监督学习为分类与回归问题。

分类问题中，我们学习出来一条「决策边界」完成数据区分。

在回归问题中，我们学习出拟合样本分布的曲线。

2）训练集与数据集

训练集（Training Set）：帮助训练模型，简单的说就是通过训练集的数据让确定拟合曲线的参数。
测试集（Test Set）：为了测试已经训练好的模型的精确度。

当然，测试集（test set）这并不能保证模型的正确性，只是说相似的数据用此模型会得出相似的结果。因为在训练模型的时候，参数全是根据现有训练集里的数据进行修正、拟合，有可能会出现过拟合的情况，即这个参数仅对训练集里的数据拟合比较准确，这个时候再有一个数据需要利用模型预测结果，准确率可能就会很差。

3）经验误差

在训练集的数据上进行学习。模型在训练集上的误差称为「经验误差」（Empirical Error）。但是经验误差并不是越小越好，因为我们希望在新的没有见过的数据上，也能有好的预估结果。

4）过拟合

过拟合，指的是模型在训练集上表现的很好，但是在交叉验证集合测试集上表现一般，也就是说模型对未知样本的预测表现一般，泛化（Generalization）能力较差。

如何防止过拟合呢？一般的方法有Early Stopping、数据集扩增（Data Augmentation）、正则化、Dropout等。

正则化：指的是在目标函数后面添加一个正则化项，一般有L1正则化与L2正则化。L1正则是基于L1范数，即在目标函数后面加上参数的L1范数和项，即参数绝对值和与参数的积项。
数据集扩增：即需要得到更多的符合要求的数据，即和已有的数据是独立同分布的，或者近似独立同分布的。一般方法有：从数据源头采集更多数据、复制原有数据并加上随机噪声、重采样、根据当前数据集估计数据分布参数，使用该分布产生更多数据等。
DropOut：通过修改神经网络本身结构来实现的。

5）偏差

偏差（Bias），它通常指的是模型拟合的偏差程度。给定无数套训练集而期望拟合出来的模型就是平均模型。偏差就是真实模型和平均模型的差异。

简单模型通常高偏差，复杂模型通常低偏差。

6）方差

方差（Variance），它通常指的是模型的平稳程度（简单程度）。

简单模型的对应的函数如出一辙，都是水平直线，而且平均模型的函数也是一条水平直线，因此简单模型的方差很小，并且对数据的变动不敏感。

复杂模型的对应的函数千奇百怪，毫无任何规则，但平均模型的函数也是一条平滑的曲线，因此复杂模型的方差很大，并且对数据的变动很敏感。

7）偏差与方差的平衡

	偏差	方差
简单模型	大	小	欠拟合
复杂模型	小	大	过拟合

8）性能度量指标

性能度量是衡量模型泛化能力的数值评价标准，反映了当前问题（任务需求）。使用不同的性能度量可能会导致不同的评判结果。

（1）回归问题

关于模型「好坏」的判断，不仅取决于算法和数据，还取决于当前任务需求。回归问题常用的性能度量指标有：平均绝对误差、均方误差、均方根误差、R平方等。

平均绝对误差（Mean Absolute Error，MAE），又叫平均绝对离差，是所有标签值与回归模型预测值的偏差的绝对值的平均。
平均绝对百分误差（Mean Absolute Percentage Error，MAPE）是对MAE的一种改进，考虑了绝对误差相对真实值的比例。
均方误差（Mean Square Error，MSE）相对于平均绝对误差而言，均方误差求的是所有标签值与回归模型预测值的偏差的平方的平均。
均方根误差（Root-Mean-Square Error，RMSE），也称标准误差，是在均方误差的基础上进行开方运算。RMSE会被用来衡量观测值同真值之间的偏差。
R平方，决定系数，反映因变量的全部变异能通过目前的回归模型被模型中的自变量解释的比例。比例越接近于1，表示当前的回归模型对数据的解释越好，越能精确描述数据的真实分布。