
机器学习中的数学:概率统计
通过学习本专栏,你可以筑牢机器学习理论和实践的概率统计基础。如果你正在学习概率统计相关知识,本专栏会让你对概率统计产生更浓厚的兴趣、更深层的思考和多角度的认识,同时收获不同于传统教材的思维体验。如果你正在进行数据分析方面的工程实践,本专栏中所着重强调的思维逻辑和处理方法也将会为你提供一种新的视角。
石 溪
毕业于清华大学计算机系,长期从事知识图谱、自然语言处理等方向的研究工作,同时擅长技术文章写作,是颇受读者欢迎和认可的技术专栏作家。
展开
-
重要!加入讨论群的方式
入群方式:下图右下角是作者企业微信二维码请用微信扫二维码加作者,然后作者就可以拉您进入讨论群了!原创 2020-12-06 11:00:39 · 4936 阅读 · 1 评论 -
建立统计思维,玩转机器学习
机器学习中,数学为什么重要?大家好,我是张雨萌,毕业于清华大学计算机系,目前从事自然语言处理相关的研究工作。撰写《机器学习中的数学》系列专栏并和大家一起共同交流学习,是我们准备了很久的一个计划。当下,机器学习、人工智能领域吸引了许多有志者投身其中,其中包含了大量非科班出身或从其他行业切换赛道转行而来的朋友。大家在学习的过程中经常会感觉学习曲线陡峭、难度较大,而机器学习之所以这么难,首要原因就是...原创 2020-10-28 16:08:28 · 4532 阅读 · 0 评论 -
【机器学习概率统计】01 理论基石:条件概率、独立性与贝叶斯
1.从概率到条件概率1.1.条件概率的发生背景从这一节开始,我们就正式进入到概率统计的内容板块中了。对于概率,相信大家都不会陌生,在各阶段的数学课上,他都是高频出现的常客,最简单的概率场景比如掷骰子,我问你:第一次掷出的点数为555的概率为多大?你会毫不犹豫的说出答案:16\frac{1}{6}61。这太简单了,如果我们只满足于此,就没有什么意义了。接下来我增加一个限定条件:已知在抛出骰子是奇数的情况下,抛掷点数为555的可能性有多大?发现了没有,在第二个问题中我们就没有直接的只问投掷出555这原创 2020-11-16 22:00:37 · 11791 阅读 · 9 评论 -
【机器学习概率统计】02 事件的关系:深入理解独立性
1.重新梳理两个事件的独立性在上一小节中,我们引入了条件概率P(A∣B)P(A|B)P(A∣B)这个重要概念,何谓条件概率?条件概率的核心就是刻画了事件BBB的发生给事件AAA是否发生所带来的额外信息。在所有的条件概率情况当中,我们注意到一个有趣且重要的特殊情况,那就是事件BBB的发生并没有给事件AAA的发生带来什么新的额外信息。换言之,事件BBB的发生与否,并没有影响到事件AAA发生的概率,换句话说就是P(A∣B)=P(A)P(A|B)=P(A)P(A∣B)=P(A)所表达的意思。此时,我们称事件A原创 2020-11-16 22:01:32 · 6341 阅读 · 3 评论 -
【机器学习概率统计】03 离散型随机变量:分布与数字特征
1.从事件到随机变量在前面两节内容中,我们介绍了事件概率的一些基本概念,给大家找了找概率的“感觉”,对于“试验”、“试验结果”、“事件发生的概率”等等重要概念有了直观的认识,那么我们进一步来讨论一个新的概念:我们可以把某一次具体试验中所有可能出现的结果构成一个样本空间,对于样本空间中的每一个可能的试验结果,我们去将他关联到一个特定的数。这种试验结果与数的对应关系就形成了随机变量,我们将试验结果所对应的数称为随机变量的取值。这里就是我们接下来要讨论的重要内容。请注意这个概念中的一个关键点,随机变量如何取原创 2020-11-16 22:02:24 · 6344 阅读 · 2 评论 -
【机器学习概率统计】04 连续型随机变量:分布与数字特征
在上一节里,我们介绍了离散型随机变量,实际上,取值于连续区域的随机变量的应用领域也是十分普遍的,比如汽车行驶的速度、设备连续正常运行的时间等等,这些在实际应用中都非常广泛,连续型随机变量能够刻画一些离散型随机变量无法描述的问题。1.概率密度函数在连续型随机变量的讨论范围中,随机变量由离散的变为了实轴上的连续值,那么与离散型随机变量的分布列以及PMFPMFPMF函数相对应,我们就有了连续型随机变量相类似的新概念:概率密度函数PDFPDFPDF,二者在概念上是完全相对应的。我们回顾一下前面在讲离散型随机变原创 2020-11-16 22:03:15 · 3293 阅读 · 3 评论 -
【机器学习概率统计】05 多元随机变量(上):联合、边缘与条件
1.试验中引入多个随机变量前两节我们讨论的离散型和连续型随机变量都是单一变量,然而在现实当中,一个试验常常会涉及到多个随机变量,所谓多个随机变量是指在同一个试验结果之下产生的多个随机变量。这些随机变量的取值是由试验结果确定的,因此它们的取值会存在相互关联,这里我们先以离散型随机变量为例,将离散型随机变量的分布列和期望推广到多个随机变量的情况,并且进一步在此基础上讨论多元随机变量条件和独立的重要概念。好了,此刻我们假设试验中不再只有一个随机变量,而是两个随机变量XXX和 YYY,同时描述他们俩的取值概率,原创 2020-11-17 19:30:17 · 3233 阅读 · 8 评论 -
【机器学习概率统计】06 多元随机变量(下):独立与相关
这一小节,我们开始讨论多元随机变量之间的关系,重点围绕独立性和相关性的概念展开。1.关于独立性的讨论1.1.随机变量与事件的独立性在概率统计的最开始部分,我们探讨过事件独立性的概念,同时我们知道:随机变量的取值,本质上同样也是一个事件,因此不难理解其独立性的概念。首先我们讨论随机变量与事件之间的相互独立性。那么回到定义中去,我们可以说他的本质就是事件的发生与否,不会对随机变量的取值提供额外的新信息,这其实就是照搬了事件独立性的概念。如果用条件概率的式子来表示的话,就有:如果随机变量XXX独立于事件原创 2020-11-17 19:31:17 · 2977 阅读 · 8 评论 -
【机器学习概率统计】07 多元随机变量实践:聚焦多元正态分布
在前面两节中,我们介绍了多元随机变量的有关概念,重点围绕着多元随机变量的联合概率、条件与边缘概率分布以及独立性和相关性,阐述了多元随机变量之间的关系,这些都是多元随机变量重点需要关注和研究的问题。在上两节理论知识的基础之上,我们在这一小节里以多元正态分布作为实际例子,让大家能够更直观的理解和强化这些概念和方法。1.再谈相关性:基于多元正态分布很简单,我们举一个例子,之前我们介绍过随机变量的正态分布,这里我们引入多元随机变量的正态分布:如果向量ZZZ由若干个遵从标准正态分布的独立同分布随机变量 Z1,原创 2020-11-17 19:31:50 · 2195 阅读 · 5 评论 -
【机器学习概率统计】08 极限思维:大数定理与中心极限定理
1.一个背景话题本节课我们来介绍概率统计当中的极限思维,我们首先从一个大家都非常熟悉的场景切入来展开我们本节内容的讨论。比如说,我们想获得本省151515岁男生的平均身高,这时你会怎么做?显然你不会也不可能真的去统计全省所有151515岁男生的身高,然后再求平均值,这样做不太现实。因此,你会去找一些样本,也就是找一部分本省151515岁的男生,取他们身高的平均值,用这个样本的平均值去近似的估计所有151515岁男生的平均身高。没错,一般就是这么干的,那接下来我再问你,找100100100个样本取得的平原创 2020-11-17 21:16:48 · 2825 阅读 · 12 评论 -
【机器学习概率统计】09 推断未知:统计推断的基本框架
1.进入统计学从这一讲开始,我们进入到统计推断的主题。统计学使用概率论的基本方法,研究怎样通过试验收集带有随机误差的样本数据,并在设定的统计模型之下,进行后续的研究工作,主要分为两大类:第一类是对这些已有的样本数据进行分析,计算他们的一些统计特征,比如样本均值、方差等等,即描述统计的范畴。第二类是更重要的,是通过这些已有的样本数据,对整个未知的总体进行推断,估计出总体当中我们感兴趣的未知参数值,即统计推断的工作,这是我们重点关注的内容。那我们为什么需要关注统计推断的方法呢?因为,当我们需要对一个未原创 2020-11-17 21:17:20 · 2566 阅读 · 11 评论 -
【机器学习概率统计】10 经典统计推断:寻找最大似然
从这一节开始,我们来介绍统计推断的具体方法。1.统计推断的两大学派在统计领域,有两种对立的思想学派:贝叶斯学派和经典学派(也称频率学派),他们之间最重要的区别就是如何看待被估计的未知参数。贝叶斯学派的观点是将其看成是已知分布的随机变量,而经典学派的观点是将其看成未知的待估计的常量。1.1.贝叶斯统计推断具体来说,贝叶斯推断方法是将未知参数看做是一个随机变量,他具备某种先验分布。在已知观测数据xxx的基础上,可以利用贝叶斯公式来推导后验概率分布pΘ∣X(θ∣x)p_{\Theta|X}(\theta|原创 2020-11-17 21:17:51 · 2677 阅读 · 3 评论 -
【机器学习概率统计】11 贝叶斯统计推断:最大后验
这一节,我们来介绍另外一种统计推断方法:贝叶斯统计推断方法。1.回顾贝叶斯定理首先,我们先来复习一下贝叶斯定理:p(Θ∣X)=p(X∣Θ)p(Θ)p(X)p(\Theta|X)=\frac{p(X|\Theta)p(\Theta)}{p(X)}p(Θ∣X)=p(X)p(X∣Θ)p(Θ)在这个简简单单的式子当中,蕴含了我们要掌握的很多重要内容:贝叶斯定理当中的四个概率表达式,他们都非常重要,在这一节的内容中将反复出现,我们来一一解析一下:p(Θ)p(\Theta)p(Θ):先验分布。 反映的是在原创 2020-11-18 22:42:03 · 3087 阅读 · 4 评论 -
【机器学习概率统计】12 由静向动:随机过程导引
1.随机变量与随机过程在详细介绍完随机变量的内容之后,这一部分我们开始进入到随机过程的部分中来。简单点说,随机过程就是一串随机变量的序列,在这个序列当中,每一个数据都可以被看作是一个随机变量,因此我们在随机过程的概率模型处理过程中,重点关注的就是时间和数据这两方面内容。所以简单地说,随机过程就是一串(有限或无限)随机变量序列,常见的随机过程建模场景数不胜数,比如:世界杯足球赛中每场比赛进球数构成的序列;沪深300指数每日收盘价构成的数据序列;某十字路口每分钟通过的车辆数量构成的序列;等等等等,可原创 2020-11-18 22:42:27 · 2042 阅读 · 3 评论 -
【机器学习概率统计】13 状态转移:初识马尔科夫链
1.回顾两类重要的随机过程在上一小节随机过程的概述中,我们提到过两类非常非常典型且重要的随机过程,一类是:伯努利过程和泊松过程,这一类随机过程是无记忆性的,也就是说未来的状态不依赖于过去的状态:新的“成功”或“到达”不依赖于该过程过去的历史情况。而另一类则正好相反,未来的情况会依赖于过去的情况,并且能够在某种程度上通过过去发生的情况去预测未来,例如这一节我们的核心内容:马尔科夫过程,他在许许多多的领域都有深入和广泛的应用。2.离散时间的马尔科夫链2.1.马尔科夫链三要素这是一类随着时间而发生状态变原创 2020-11-18 22:42:58 · 3260 阅读 · 3 评论 -
【机器学习概率统计】14 变与不变:马尔科夫链的极限与稳态
1.马尔科夫链的极限行为1.1.极限与初始状态无关的情况这里我们接着上一节的社会阶层流动概率转移矩阵来引入极限行为的话题。对于转移概率矩阵[0.70.20.10.30.50.20.20.40.4]\begin{bmatrix}0.7&0.2&0.1\\0.3&0.5&0.2\\0.2&0.4&0.4\end{bmatrix}⎣⎡0.70.30.20.20.50.40.10.20.4⎦⎤,我们在上一小节已经计算过随着转移步数nnn的逐步增大,nn原创 2020-11-18 22:47:21 · 2601 阅读 · 3 评论 -
【机器学习概率统计】15 基于马尔科夫链的近似采样
从这一小节开始,我们主要来介绍基于马尔科夫链的近似采样过程。具体如何采样,以及整个采样过程中的思维过程,我们随着这节的内容讲解而逐步展开。1.再看马尔科夫链的稳态在基于马尔科夫链的采样过程中,发挥核心关键作用的是马尔科夫链的稳态以及稳态分布。稳态的概念,我们在之前的内容中已经详细的讲解过了,为了充分理解他,用好它,我们在这里动态的演示一下一个指定的马尔科夫链的状态转移以及最终到达稳态的过程。通过下面这段代码运行出来的实际效果,大家会非常直观的理解马尔科夫链的稳态。代码片段:import numpy原创 2020-11-18 22:43:54 · 2498 阅读 · 1 评论 -
【机器学习概率统计】16 蒙特卡洛思想与接受-拒绝采样
上一小节的末尾,我们留下了一个看上去非常复杂的问题,感觉无从下手,我们该如何去找到平稳分布恰好唯一就是目标采样分布的马尔科夫链呢?后续这两节内容,我们就重点带领大家以一种通用的方法,去寻找这个马尔科夫链。1.应用蒙特卡洛方法进行样本采样1.1.蒙特卡洛方法理论支撑在最开始,我们先不急着去寻找马尔科夫链,把有关马尔科夫的事儿先统统放在一旁不管。首先介绍这个过程中所运用到的**“拒绝-接受”**操作技巧和他背后的思想方法。在前面介绍的贝叶斯统计推断方法中我们是基于纯解析的方法,通过手动计算后验概率分布的原创 2020-11-18 22:44:27 · 2636 阅读 · 1 评论 -
【机器学习概率统计】17 马尔科夫链蒙特卡洛方法:通用采样引擎
1.问题的目标这一节,我们走到了近似采样的最后,也是最关键的一部分,可以说是黎明前的最后一夜了,这里我们要一举解决最核心的关键问题:对于任意给定的目标分布π(x)\pi(x)π(x),我们如何找到以他为唯一平稳分布的马尔科夫链,并且基于马尔科夫链采样的方法,实现对其的近似采样。找这么一个马尔科夫链,本质上就是要找到他的转移概率矩阵PPP,那么首先先确立一个思考路径:有没有什么条件,使得只要我们的转移矩阵PPP满足了,就意味着目标分布π(x)\pi(x)π(x)就是转移矩阵PPP对应的马尔科夫链的平稳分布原创 2020-11-18 22:45:33 · 1846 阅读 · 1 评论 -
【机器学习概率统计】18 隐马尔科夫模型:明暗两条线
1.从马尔科夫链到隐马尔科夫模型在前面几节的内容里,我们详细介绍了马尔科夫链,下面我们接着来说说隐马尔科夫模型,他的英文全称是Hidden Markov Model,也就是我们经常看到的HMM模型。隐马尔科夫模型是一种统计模型,他广泛的应用在语音识别、词性自动标注、概率文法等自然语言处理的各个应用领域。经过前面的学习,我们对马尔科夫链已经相当熟悉了,这里谈到的隐马尔科夫模型与他在名称上可以说是非常接近。其关键差异就在于一个“隐”字,在这个模型中,他首先由一个隐藏的马尔科夫链随机生成一个状态原创 2020-11-18 22:46:15 · 1532 阅读 · 0 评论 -
【机器学习概率统计】19 概率估计:隐马尔科夫模型观测序列描述
1.隐马尔科夫模型要研究什么1.1.一个赌场的故事背景在上一小节里,我们基本上把隐马尔科夫模型的运行机制和基本要素讲清楚了,那么他的关键研究要点是什么?或者说一般而言我们关注的研究问题聚焦在哪些方面呢?我们不妨来看一个例子,这个例子可以更好的讲清楚我们为什么要研究这个模型,以及问题的关键点在哪。这里我们举一个赌博的例子,大家应该都听说过用骰子猜大小的赌博游戏,掷出骰子,如果点数为1,2,31,2,31,2,3,则为小,如果点数为4,5,64,5,64,5,6,则为大。对于一个正常的骰子而言,掷出1,原创 2020-11-18 22:48:11 · 1526 阅读 · 2 评论 -
【机器学习概率统计】20 状态解码:隐马尔科夫模型隐含状态揭秘
1.隐含状态解码问题的描述上一节我们讲完了概率估计问题,这里我们再来讲一下隐马尔科夫模型的状态解码问题。解码:decodingdecodingdecoding,就是给定一个已知的观测序列,求他最有可能对应的状态序列。那么用形式化的语言来说就是已知模型λ=(A,B,π)\lambda=(A,B,\pi)λ=(A,B,π)和观测序列O=(o1,o2,...,oT)O=(o_1,o_2,...,o_T)O=(o1,o2,...,oT),求使得条件概率P(I∣O)P(I|O)P(I∣O)最大的隐状态序列I原创 2020-11-19 15:28:38 · 1642 阅读 · 0 评论