【机器学习】PAC 学习理论


一、计算学习理论(computation learning theory)

计算学习理论研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。


二、PAC 学习(Probably Approximately Correct,概率近似正确)在干什么?

计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,PAC)学习理论。
我们通过一个”猜区间“游戏来说明PAC learning是什么。

  1. Learning intervals(区间学习)

首先举一个简单的猜数游戏:

玩家1 心中默默假想一个区间[a b],同时随机地选取一个数字x。无论他怎么选择x,他都要告诉大家x是否在区间[a b]内(即a<x<b是否成立)。我们假设如果x在区间内为1,如果在区间外则为0。

玩家2 则通过玩家1 口中报出来的数字x和“1”、“0”来确定区间[a b]的值。因为玩家1 报数字的次数总归是有限(finite)的,所以很明显玩家2 几乎不可能完全的猜对a和b的值。但玩家2 可以根据玩家1 报出的新数据不断地更正自己的猜测。

极端的想象一下,如果玩家1 可以无限(infinte)次地去报数字,并且告诉大家这个数字x是否在区间内,我们就可以计算玩家 2 的区间所预测的错误结果的可能性。如果这个误差很小很小,那我们就可以说玩家2 “学习”了玩家1 的区间[a b]。也就是玩家2 猜对了!那么这个区间问题可以被称为PAC-learnable。

  1. PAC learning

讲完这个游戏,我们重新回顾一下PAC learning的全名:probably approximately correct learning。

Probably的意思是:如果玩家1 可以无限次的玩这个游戏来报数字,玩家2 就能给出一个很好的区间预测。换句话说,玩家2 可以极大可能的猜对玩家1 假象的区间[a b]

Approximately correct 的意思是:在给定新的报数后,预测区间已经十分接近于玩家1 心中的假想区间了。并且这个预测区间的误差很小很小很小…………


三、PAC 学习理论简单总结

先放PAC学习相关理论的一个总结:同等条件下,模型越复杂泛化误差越大。同一模型在样本满足一定条件的情况下,样本数量越大,模型泛化误差越小,因此还可以说模型越复杂越吃样本。


四、为什么要学习 PAC 学习理论?

此理论可以帮助我们更深入的了解机器学习的学习机制。

已经入门或者从事过一段时间机器学习相关工作的你,有没有想过为什么在训练样本上学习了一个假设(函数?模型?下文统一叫假设)就能保证这个假设在训练样本之外的数据上有效?小样本量数据为什么不适用CNN/RNN?

也就是所谓的泛化性?


五、什么是PAC学习理论?

先说一下机器学习。机器学习有两个元素:模型与数据。其中模型又包含两部分:优化算法与假设空间。所谓机器学习就是用优化算法从假设空间中选择一个假设,使此假设能符合给定的数据描述。因此优化算法通俗的讲就是假设选择算法。

而PAC学习理论不关心假设选择算法,他关心的是能否从假设空间 H 中学习一个好的假设 h 。看到 能否 二字了没?此理论不关心怎样在假设空间中寻找好的假设,只关心能不能找得到。现在我们在来看一下什么叫“好假设”?只要满足两个条件(PAC辨识条件)即可:

  1. 近似正确:泛化误差 E(h) 足够小
    E(h) 越小越好,最好泛化误差能等于0,但一般是不可能的。那我们就把 E(h) 限定在一个很小的数 η之内,即只要假设 h 满足 E(h) < η ,我们就认为 h 是正确的。
  2. 可能正确
    不指望选择的假设 h 百分之百是近似正确的(按上段所述,即 E(h) < η ),只要 很可能 是近似正确的就可以,即我们给定一个值 μ ,假设 h 满足 P(h近似正确)>=1-μ。

综上两点,就得到了PAC(可能近似正确,probably approximate correct)可学习的定义。简单的讲就是模型在短时间内利用少量的(多项式级别)样本能够找到一个假设 h ,使其满足 P(E(h) < η) >=1-μ,其中0<η,μ<1。


参考链接

  1. 周志华《机器学习》西瓜书
  2. https://zhuanlan.zhihu.com/p/34687134
  3. 30分钟了解PAC学习理论——计算学习理论第一讲
  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 机器学习数学理论机器学习领域中具有重要的地位。它是机器学习算法的理论基础,通过数学模型来描述和解释机器学习算法的原理和性能。 机器学习数学理论主要涉及统计学、优化方法、线性代数和概率论等数学知识。统计学提供了对数据的分析和建模方法,通过样本数据的统计特征来推导出模型的参数估计和预测能力。优化方法用于求解机器学习问题中的最优解,如最小化损失函数或最大化收益函数。线性代数则用于描述和处理数据的向量和矩阵,如特征向量和特征值分解等。概率论则是用于描述随机事件和不确定性,如概率分布和条件概率等。 机器学习数学理论学习对于掌握机器学习算法至关重要。通过理解数学理论,可以更深入地理解机器学习算法的原理和假设,分析算法在不同数据集上的性能,并对算法进行优化和改进。同时,掌握数学理论也有助于更好地应用机器学习算法解决实际问题,选择合适的模型和参数以及评估模型的性能。 对于学习机器学习数学理论的人来说,可以通过学习相关的数学教材和课程来建立起扎实的数学基础。此外,还可以通过实践和实际应用来加深对数学理论的理解和应用能力。总之,机器学习数学理论机器学习领域不可或缺的一部分,对于从事机器学习研究和应用的人员来说,了解和掌握这些数学知识是非常重要的。 ### 回答2: 机器学习数学理论是一门研究机器学习算法和模型背后的数学原理的学科。在机器学习中,数学理论起到了至关重要的作用,它为机器学习提供了坚实的基础,并帮助我们理解算法的内在机制。 首先,机器学习数学理论涉及到概率论和统计学的知识。概率论是用来对不确定性进行建模的数学工具,而机器学习中的许多问题都有一定程度的不确定性,如分类、聚类和回归等任务。统计学则提供了分析和解释数据集的方法,帮助我们了解数据背后的规律和趋势。 其次,线性代数也是机器学习数学理论的重要组成部分。线性代数涉及到矩阵和向量的运算,这些运算在机器学习中广泛应用于特征表示、参数优化和模型预测等方面。通过线性代数的工具,我们可以对数据进行高效处理,并进行复杂模型的计算。 此外,凸优化是机器学习数学理论中的一个重要分支。优化理论用于解决如何找到使目标函数最小或最大化的变量值的问题,在机器学习中,我们经常需要通过优化算法来求解模型参数,以最大程度地拟合训练数据集,并在未见过的数据上表现良好。 最后,信息论也是机器学习数学理论的重要组成部分。信息论研究信息的量和信息的传输方式,而在机器学习中,我们需要通过信息论来评估特征的重要性、确定模型的复杂度以及度量模型预测的准确性等。 总而言之,机器学习数学理论机器学习领域不可或缺的一部分,它提供了数学和统计工具,帮助我们理解机器学习算法的原理,并为我们设计和调优模型提供了指导。通过学习机器学习数学理论,我们能够更好地应用和创新机器学习算法,解决现实世界中的问题。 ### 回答3: 机器学习数学理论 PDF 是一本关于机器学习中涉及的数学理论的电子书。这本书提供了机器学习背后的数学基础与原理,旨在帮助人们理解和应用机器学习算法。 机器学习是一门利用算法让计算机从数据中学习的科学和艺术。而数学在机器学习中起着重要的角色,通过数学理论的支持,我们能够深入理解机器学习方法的原理和局限性。 这本 PDF 从基础数学理论出发,介绍了概率论、统计学和线性代数等数学领域的相关知识。它解释了在机器学习中常用的概念和技术,如回归分析、分类器、聚类和降维等。此外,它还介绍了几种常用的机器学习算法,例如决策树、支持向量机和神经网络,并通过数学推导和示例演示了算法的运作过程。 通过学习这本 PDF,读者可以系统地学习和掌握机器学习数学理论的基础知识。它不仅可以帮助读者理解机器学习算法的原理,还可以帮助读者解读和分析其背后的数学模型、评估算法性能和调优模型参数。 总之,机器学习数学理论 PDF 是一本理论与实践相结合的指南,旨在帮助读者深入了解机器学习的数学基础,并将其应用于实际问题中。通过学习这本书,读者可以更好地理解和应用机器学习算法,为解决现实世界中的各种问题提供有力的工具和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值