【机器学习】 — 1、机器学习基础知识

1.机器学习概述

1)什么是机器学习

人工智能(Artificial intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

机器学习(Machine learning)是人工智能的子集,是实现人工智能的一种途径,但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。

深度学习(Deep learning)是机器学习的子集,灵感来自人脑,由人工神经网络(ANN)组成,它模仿人脑中存在的相似结构。

2)机器学习三要素

机器学习三要素包括数据模型算法

3)机器学习的核心技术

  • 分类:应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。
  • 聚类:从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。
  • 回归:根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值
  • 异常检测:对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。

4)机器学习的基本流程

机器学习工作流(WorkFlow)包含数据预处理(Processing)、模型学习(Learning)、模型评估(Evaluation)、新样本预测(Prediction)几个步骤。

  • 数据预处理:输入(未处理的数据 + 标签)→处理过程(特征处理+幅度缩放、特征选择、维度约减、采样)→输出(测试集 + 训练集)。
  • 模型学习:模型选择、交叉验证、结果评估、超参选择。
  • 模型评估:了解模型对于数据集测试的得分。
  • 新样本预测:预测测试集。

5)机器学习应用场景

作为一套数据驱动的方法,机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别和机器人等领域。

  • 智能医疗:智能假肢、外骨骼、医疗保健机器人、手术机器人、智能健康管理等。
  • 人脸识别:门禁系统、考勤系统、人脸识别防盗门、电子护照及身份证,还可以利用人脸识别系统和网络,在全国范围内搜捕逃犯。
  • 机器人的控制领域:工业机器人、机械臂、多足机器人、扫地机器人、无人机等。

2.机器学习基本名词

  • 监督学习Supervised Learning):训练集有标记信息,学习方式有分类和回归。
  • 无监督学习Unsupervised Learning):训练集没有标记信息,学习方式有聚类和降维。
  • 强化学习Reinforcement Learning):有延迟和稀疏的反馈标签的学习方式。
  • 示例/样本:上面一条数据集中的一条数据。
  • 属性/特征:「色泽」「根蒂」等。
  • 属性空间/样本空间/输入空间X:由全部属性张成的空间。
  • 特征向量:空间中每个点对应的一个坐标向量。
  • 标记:关于示例结果的信息,如((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜),其中「好瓜」称为标记。
  • 分类:若要预测的是离散值,如「好瓜」,「坏瓜」,此类学习任务称为分类。
  • 假设:学得模型对应了关于数据的某种潜在规律。
  • 真相:潜在规律自身。
  • 学习过程:是为了找出或逼近真相。
  • 泛化能力:学得模型适用于新样本的能力。一般来说,训练样本越大,越有可能通过学习来获得具有强泛化能力的模型。

3.机器学习算法分类

机器学习最主要的类别有:监督学习、无监督学习和强化学习。

监督学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析统计分类

无监督学习:与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络(GAN)聚类、降维

强化学习:通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。

1)分类问题

分类问题是机器学习非常重要的一个组成部分。它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类问题可以细分如下:

  • 二分类问题:表示分类任务中有两个类别新的样本属于哪种已知的样本类。应用场景:垃圾邮箱分类。
  • 多类分类(Multiclass classification)问题:表示分类任务中有多类别。应用场景:图像内容识别。
  • 多标签分类(Multilabel classification)问题:给每个样本一系列的目标标签。

2)回归问题

根据数据样本上抽取出来的特征,预测连续值结果。

应用场景:某城市的房价具体值;电影票价值。

3)聚类问题

根据数据样本上抽取出来的特征,挖掘数据的关联模式

应用场景:新闻聚类;相似用户/社区发现

4)降维问题

对高维数据用低维数据进行表达:数据映射。

4.机器学习模型评估与选择

1)机器学习与数据拟合

机器学习最典型的监督学习为分类与回归问题。

分类问题中,我们学习出来一条「决策边界」完成数据区分。

在回归问题中,我们学习出拟合样本分布的曲线。

2)训练集与数据集

  • 训练集(Training Set):帮助训练模型,简单的说就是通过训练集的数据让确定拟合曲线的参数。
  • 测试集(Test Set):为了测试已经训练好的模型的精确度。

当然,测试集(test set)这并不能保证模型的正确性,只是说相似的数据用此模型会得出相似的结果。因为在训练模型的时候,参数全是根据现有训练集里的数据进行修正、拟合,有可能会出现过拟合的情况,即这个参数仅对训练集里的数据拟合比较准确,这个时候再有一个数据需要利用模型预测结果,准确率可能就会很差。

3)经验误差

在训练集的数据上进行学习。模型在训练集上的误差称为「经验误差」(Empirical Error)。但是经验误差并不是越小越好,因为我们希望在新的没有见过的数据上,也能有好的预估结果。

4)过拟合

过拟合,指的是模型在训练集上表现的很好,但是在交叉验证集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,泛化(Generalization)能力较差。

如何防止过拟合呢?一般的方法有Early Stopping、数据集扩增(Data Augmentation)、正则化、Dropout等。

  • 正则化:指的是在目标函数后面添加一个正则化项,一般有L1正则化与L2正则化。L1正则是基于L1范数,即在目标函数后面加上参数的L1范数和项,即参数绝对值和与参数的积项。

  • 数据集扩增:即需要得到更多的符合要求的数据,即和已有的数据是独立同分布的,或者近似独立同分布的。一般方法有:从数据源头采集更多数据、复制原有数据并加上随机噪声、重采样、根据当前数据集估计数据分布参数,使用该分布产生更多数据等。

  • DropOut:通过修改神经网络本身结构来实现的。

5)偏差

偏差Bias),它通常指的是模型拟合的偏差程度。给定无数套训练集而期望拟合出来的模型就是平均模型。偏差就是真实模型和平均模型的差异。

简单模型通常高偏差,复杂模型通常低偏差。

6)方差

方差(Variance),它通常指的是模型的平稳程度(简单程度)

简单模型的对应的函数如出一辙,都是水平直线,而且平均模型的函数也是一条水平直线,因此简单模型的方差很小,并且对数据的变动不敏感。

复杂模型的对应的函数千奇百怪,毫无任何规则,但平均模型的函数也是一条平滑的曲线,因此复杂模型的方差很大,并且对数据的变动很敏感。

7)偏差与方差的平衡

偏差方差
简单模型欠拟合
复杂模型过拟合

8)性能度量指标

性能度量是衡量模型泛化能力的数值评价标准,反映了当前问题(任务需求)。使用不同的性能度量可能会导致不同的评判结果。

(1)回归问题

关于模型「好坏」的判断,不仅取决于算法和数据,还取决于当前任务需求。回归问题常用的性能度量指标有:平均绝对误差、均方误差、均方根误差、R平方等

  • 平均绝对误差Mean Absolute Error,MAE),又叫平均绝对离差,是所有标签值与回归模型预测值的偏差的绝对值的平均。
  • 平均绝对百分误差Mean Absolute Percentage Error,MAPE)是对MAE的一种改进,考虑了绝对误差相对真实值的比例。
  • 均方误差Mean Square Error,MSE)相对于平均绝对误差而言,均方误差求的是所有标签值与回归模型预测值的偏差的平方的平均。
  • 均方根误差Root-Mean-Square Error,RMSE),也称标准误差,是在均方误差的基础上进行开方运算。RMSE会被用来衡量观测值同真值之间的偏差。
  • R平方,决定系数,反映因变量的全部变异能通过目前的回归模型被模型中的自变量解释的比例。比例越接近于1,表示当前的回归模型对数据的解释越好,越能精确描述数据的真实分布。

(2)分类问题

分类问题常用的性能度量指标包括错误率(Error Rate)、精确率(Accuracy)、查准率(Precision)、查全率(Recall)、F1、ROC曲线、AUC曲线和R平方等

  • 错误率:分类错误的样本数占样本总数的比例。
  • 精确率:分类正确的样本数占样本总数的比例。
  • 查准率(也称准确率),即在检索后返回的结果中,真正正确的个数占你认为是正确的结果的比例。
  • 查全率(也称召回率),即在检索结果中真正正确的个数,占整个数据集(检索到的和未检索到的)中真正正确个数的比例。
  • F1是一个综合考虑查准率与查全率的度量,其基于查准率与查全率的调和平均定义:即:F1度量的一般形式-Fβ,能让我们表达出对查准率、查全率的不同偏好。

ROC曲线(Receiver Operating Characteristic Curve)全称是「受试者工作特性曲线」。综合考虑了概率预测排序的质量,体现了学习器在不同任务下的「期望泛化性能」的好坏。ROC曲线的纵轴是「真正例率」(TPR),横轴是「假正例率」(FPR)。

9)评估方法

常见的评估方法有:留出法(Hold-out)、交叉验证法( Cross Validation)、自助法(Bootstrap)

留出法(Hold-out)是机器学习中最常见的评估方法之一,它会从训练数据中保留出验证样本集,这部分数据不用于训练,而用于模型评估。

机器学习中,另外一种比较常见的评估方法是交叉验证法( Cross Validation)。k 折交叉验证对 k 个不同分组训练的结果进行平均来减少方差,因此模型的性能对数据的划分就不那么敏感,对数据的使用也会更充分,模型评估结果更加稳定。

自助法(Bootstrap)是一种用小样本估计总体值的一种非参数方法,在进化和生态学研究中应用十分广泛

自助法(Bootstrap)通过有放回抽样生成大量的伪样本,通过对伪样本进行计算,获得统计量的分布,从而估计数据的整体分布。

10)模型调优与选择准则

我们希望找到对当前问题表达能力好,且模型复杂度较低的模型:

  • 表达力好的模型,可以较好地对训练数据中的规律和模式进行学习;
  • 复杂度低的模型,方差较小,不容易过拟合,有较好的泛化表达。

11)如何选择最优的模型

(1)验证集评估选择

  • 切分数据为训练集和验证集。
  • 对于准备好的候选超参数,在训练集上进行模型,在验证集上评估。

(2)网格搜索/随机搜索交叉验证

  • 通过网格搜索/随机搜索产出候选的超参数组。
  • 对参数组的每一组超参数,使用交叉验证评估效果。
  • 选出效果最好的超参数。

(3)贝叶斯优化

  • 基于贝叶斯优化的超参数调优。

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值