原创:机器学习的算法选择与评价指标

机器学习的四个分支

机器学习主要是通过对大量的数据进行分析来构建模型。根据数据分析、模式构建的不同方式可以将机器学习划分为4个不同的分支:监督学习、无监督学习、半监督学习和强化学习。

1、监督学习

监督学习属于机器学习中的一类算法,它根据一定数量的已经做好标记的训练数据组成的集合进行分析,学习到数据输入与输出之间的关系。在监督学习中,可以将这些联系量化为权值,并用这些权值来创建函数或模型。通俗来说,就是利用有标签的数据进行训练。通过拟合标记的训练集,希望找到最优的模型参数来预测测试集上的未知标签。如果标签是实数,可以称任务为回归。如果标签来自有限数量的值,这些值是无序的,那么它就是分类。
具体算法:决策树、K-近邻算法、朴素贝叶斯、随机森林和自动学习机等。

2、无监督学习

无监督学习也是一类学习算法的术语,指没有相关联的学习过程,也称为自组织和对输入的概率密度学习方法。无监督学习的核心应用是统计学领域的密度估计。在概率论中,无监督学习和监督学习形成了鲜明的对比,监督学习旨在推断以标签为条件的输入数据的条件概率分布,而无监督学习旨在推断先验概率分布。
矩量法是无监督学习的统计方法之一。在矩量法中,模型中的未知参数与一个或多个随机变量的矩量相关。通常根据经验来估计矩量。基本矩量是一阶和二阶矩。对于随机向量,一阶矩是平均向量,二阶矩是协方差矩阵(当均值为0时)。高阶矩通常使用张量来表示,而张量则是将矩阵推广到更高阶的多维数组。无监督学习算法不得不提到聚类分析,也被称为集群分析。在许多领域都有广泛的应用,例如,机器学习、数据挖掘、模式识别和图像分析、生物信息等。
具体算法:以分群思想有K-平均算法、混合模型和层次结构式分群等;属于神经网络的算法有自编码、赫布学习、生成式对抗网络和自组织映射等;属于潜在变量模型的方法有最大期望算法和矩量法。

3、半监督学习

半监督学习的目的是使用无标签的数据进行训练和学习,通常是利用少量的标记数据与大量未标记数据。半监督学习介于无监督学习(没有任何标记的训练数据)和监督学习(具有完全的标记数据)之间,有分类回归和聚类。优点在于,未标记的数据与少量标记数据结合使用,可以比无监督学习在学习准确性方面有相当大的提高,但没有监督所需的学习时间和成本。
半监督学习包括转导学习或归纳学习,转到学习的目标是推断给定未标记数据的正确答案,而归纳学习的目标是判断出正确的映射。在半监督学习中,为了使用到无标签数据,必须要对数据的分布作底层结构的假设,包括平滑假设、聚类假设或流形假设。平滑假设表示在向量空间中距离越近的数据则标签也就相似;聚类假设表示同一聚类下的数据标签更相似;流形假设表示领域数据的标签更相似。
半监督学习的一些算法本质上不是从标记或未标记的数据中学习,而是在监督学习框架内使用未标记的额数据。

4、强化学习

强化学习是一种数学框架,通过将通用的奖励信号与其过去的行为相关联起来学习的最佳行为。是一种自动化目标导向学习和决策的方法。该方法用于加强行为与环境的交互,并在每个步骤成功完成时接受奖励信号的问题。强化学习算法旨在找到一个策略,以完成一个状态到另一个动作的映射,最大化该策略下的预期积累奖励或价值函数。
强化学习是一类面向目标的算法,其目的在于通过学习来获得复杂对象,或者通过多个步骤在一个维度上最大化。深度强化学习(DRL)是人工智能的一个快速发展的细分,旨在解决人类遇到的许多问题。

评价模型指标

1、分类指标

分类是输入数据预测类标签。在二分类中,有两种可能的输出。在多分类中,有两个以上可能的输出。在二分类中,有如准确率、混淆矩阵、对数损失和AUC等指标。

1.1:准确率

准确率=正确分类样本数/总样本数

1.2:混淆矩阵

准确率看起来非常简单,然而,准确率评价指标没有对不同类别进行区分,即其平等的对待每个类别。因为这种评价有时是不够的,比如要看类别0与类别1下分类错误的个数,因为不同类别下分类错误的代价不同,即对不同类别的偏向不同从而造成评价有误。
混淆矩阵由此出现,假设测试数据集在正类中包含100个样本,在负类中包含200个样本,则混淆矩阵如下:

预测为正类预测为负类
标记为正类8020
标记为正类5195

上述矩阵就是混淆矩阵,可以清楚地看出正类具有降低的准确度(80/(20+80)=80%),相对于负类的准确度(195/(5+195)=97.5%)较高。如果仅仅查看总体准确度,则上述信息丢失,只能得出不全面的数据为(80+195)/(100+200)=91.7%。

1.3:编号平均准确率

为了应对每个类别下样本的个数不一样的情况,可以对准确率进行变种,计算每个类别下的准确率,然后再计算它们的平均值。例如,类别0的准确类为80%,类别1下的准确率为97.5%,那么平均准确率为(80%+97.5%)/2=88.75%。因为每个类别下类别的样本个数不一样,即计算每个类别的准确类的时候,分母不一样,则平均准确率不等于准确率;如果每个类别下的样本个数一样,则平均准确率与准确率相等。
平均准确率也有自己的缺点,例如,如果存在某个类别,类别的样本个数很少,那么使用测试集进行测试时候,可能造成该类别准确率方差过大,意味着该类别的准确率可靠性不强。

1.4:对数损失函数

在分类输出中,若输出不再是0-1,而是实数值,即属于每个类别的概率,那么可以用Log-loss对分类结果进行评价。若这个输出概率表示该记录所属的其对应的类别的置信度。若样本原本属于类别0,但是分类器输出其属于类别1的概率为0.51,那么这种情况认为分类器出错了。该概率接近了分类器的分类的边界概率0.5。Log-loss是一个软的分类准确率度量方法,使用概率来表示其所属的类别的置信度。表达式如下:

L o g − l o s s = − 1 N ∑ i = 1 N y i l o g p i + ( 1 − y i ) l o g ( 1 − p i )   Log-loss = -\frac{1}{N}\sum^{N}_{i=1}y_{i}logp_{i}+(1-y_{i})log(1-p_{i})\, Logloss=N1i=1Nyilogpi+(1yi)log(1pi)
上式中,yi表示第i个样本所属的真实类别0或者1;pi表示第i个样本属于类比1的概率。式子中的两部分对于每个样本只会选择其一,因为有一个一定为0,当预测与实际类别完全匹配时,则两个部分是0,其中假定0log0=0。
其实,从数学上来看,Log-loss的表达式非常漂亮。仔细观察可以发现,其信息论中的交叉熵(Cross Entropy,真实值与预测值的交叉熵),它与相对熵(Relative Entropy,KL距离或者KL散度,Kullback-Leibler divergence)也非常像。信息熵是对事情的不确定性进行度量,不确定性越大,熵越大。交叉熵包含了真实分布的熵加上假设与真实分布不同的分布的不确定性。因此,Log-loss是对额外噪声(extranoise)的度量,这个噪声是由于预测值域实际值不同产生的。因此最小化交叉熵,便是最大化分类器的准确率。

1.5:AUC

AUC的全称是Area under the Curve,即曲线下的面积,这条曲线便是ROC曲线,全称为Receiver Operating Characteristic曲线。ROC曲线描述分类器的True Positive Rate(TPR,分类器分类正确的正样本个数占总正样本个数的比例)与False Positive Rate(FPR,分类器分类错误的负样本个数占总负样本个数的比例)之间的变化关系。即ROC曲线下的面积越大,分类器效果越好。AUC的值介于0.5到1.0之间。

2、排名指标

2.1:精确率与召回率

p r e c i s i o n = h a p p y − c o r r e c t − a n s w e r t o t a l − i t e m − r e s t u r n e d − b y − r a n d e r   precision = \frac{happy-correct-answer}{total-item-resturned-by-rander}\, precision=totalitemresturnedbyranderhappycorrectanswer
r e c a l l = h a p p y − c o r r e c t − a n s w e r s t o t a l − r e l e v a n t − i t e m   recall = \frac{happy-correct-answers}{total-relevant-item}\, recall=totalrelevantitemhappycorrectanswers

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WLooper

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值