石 溪
毕业于清华大学计算机系,长期从事知识图谱、自然语言处理等方向的研究工作,同时擅长技术文章写作,是颇受读者欢迎和认可的技术专栏作家。
展开
-
重要!加入讨论群的方式
入群方式:下图右下角是作者企业微信二维码请用微信扫二维码加作者,然后作者就可以拉您进入讨论群了!原创 2020-12-06 11:00:39 · 4936 阅读 · 1 评论 -
数学——你与机器学习之间的距离
机器学习里,数学为什么很重要?做机器学习数学基础系列专栏和大家一起共同交流学习,是我们准备了很久的一个计划。因为在当下,机器学习、人工智能领域吸引了许多同学投身其中,其中包含了大量非科班出身或者从其他行业切换赛道转行而来的朋友们,大家在学习的过程中发现学习曲线陡峭、难度较大,普遍的心声就是:机器学习难,首要就是数学知识需要的太多了!的确如此,机器学习是一个综合性强、知识栈长的学科,需要大量的前...原创 2020-10-28 16:11:01 · 6252 阅读 · 0 评论 -
【机器学习线性代数】01 构建空间:从向量和基底出发
1.向量基础概念回顾1.1.向量的几何含义向量对于大家而言一定不陌生,他的概念很简单,把数字排成一行或一列就是向量。他是描述空间的有力工具。比如二维向量:[45]\begin{bmatrix} 4\\5 \end{bmatrix}[45],他有两个成分:第一个成分是444,第二个成分是555。一方面,我们可以把他理解成二维平面中xxx坐标为444,yyy坐标为555的一个点,也可以理解为以平面原点(0,0)(0,0)(0,0)为起点,到目标终点(4,5)(4,5)(4,5)的有向线段,如图1所示:原创 2020-11-15 10:47:36 · 12787 阅读 · 16 评论 -
【机器学习线性代数】02 初识矩阵:让向量动起来
1.矩阵?一排向量,一堆数介绍完了向量,这一节我们开始介绍矩阵。对于矩阵而言,最直观的描述就是一个m×nm\times nm×n大小的数字方阵,他可以看作是nnn个mmm维列向量从左到右并排摆放,也可以看成是mmm个nnn维行向量从上到下进行叠放。我们举一个实际的例子:一个2×32\times 32×3的矩阵A=[1230.4−42]A=\begin{bmatrix} 1 & 2 & 3 \\ 0.4 & -4 & 2 \end{bmatrix}A=[10.42−43原创 2020-11-15 10:50:17 · 7171 阅读 · 9 评论 -
【机器学习线性代数】03 再论矩阵:空间映射关系的描述
1.利用矩阵表示空间映射回顾上一讲中所讲的内容,在默认基底(e1,e2,...,en)(e_1,e_2,...,e_n)(e1,e2,...,en)构成的RnR^nRn空间中,矩阵AAA与列向量xxx的乘法AxAxAx的本质就是变换向量的基底。将默认基底中的各基向量(e1,e2,...,en)(e_1,e_2,...,e_n)(e1,e2,...,en)分别对应的变换为矩阵AAA的各列,由矩阵AAA的各列充当新的“基向量” ,再结合原向量的坐标,得到目标向量在目标空间中的新位置。总结概况一下原创 2020-11-15 10:51:19 · 7224 阅读 · 6 评论 -
【机器学习线性代数】04 由果寻因:谈谈逆映射与逆矩阵
1.分析映射的逆过程1.1.说说逆矩阵在前面的内容中,我们反复讲矩阵的本质是映射。对于一个m×nm × nm×n的矩阵,乘法y=Axy=Axy=Ax的作用就是将向量从nnn维原空间中的xxx坐标位置,映射到mmm维目标空间的yyy坐标位置,这是正向映射的过程。那么,如果已知结果向量的坐标yyy去反推原向量的坐标xxx,这个过程就称之为逆映射,因为逆映射也是一种映射过程,因此表征逆映射的矩阵,我们称之为:A−1A^{-1}A−1。1.2.和反函数进行类比为了更直观的说明问题,我们在深入讨论逆映射、逆矩原创 2020-11-15 10:52:42 · 3993 阅读 · 5 评论 -
【机器学习线性代数】05 封闭小世界:向量空间及其子空间
在前面的内容中,我们在内容介绍的过程中多次提到了空间的概念,例如空间的映射、空间的压缩、张成空间等等。当然大家凭借感性的认识和一些印象,是可以对空间建立理解的,但是这一讲里,我们想更专业、更系统的来树立起向量空间的认知,而不是一个模糊的感觉。1.向量空间1.1.最常见的向量空间:RnR^nRn首先直观的看:前面我们反复见到的RnR^nRn就是一种向量空间,比如:R1R^1R1,R2R^2R2,R3R^3R3,R4R^4R4等等,RnR^nRn空间由所有含有nnn个成分的列向量构成。比如我们R3R^3R原创 2020-11-15 10:53:22 · 3715 阅读 · 13 评论 -
【机器学习线性代数】06 解方程组:从空间的角度再引入
1.从空间映射的角度再来看方程组这一节我们来系统的聊一下解方程组的问题。这看上去像是中小学生干的事儿。例如我们来解一个三元一次方程组,老师会告诉我们:如果有三个未知数,那么方程组里就需要有三个方程来对其进行求解,如果方程的个数不足三个,那么方程的解就不唯一,如果方程组的个数超过了三个,方程组就无解。对这段话是不是有一些印象?这是一种非常朴素的理解方法,至于说为什么朴素,一方面他的确说明了一些问题,但是实际上描述并不完备、准确。在这一讲里面,我们就把解方程组和前面反复讨论的空间映射结合起来思考,利用矩阵原创 2020-11-15 10:55:17 · 3126 阅读 · 9 评论 -
【机器学习线性代数】07 寻找最近:空间中的向量投影
1.从两个实际问题谈起在近似拟合这一部分内容正式开始之前,我们先抛出两个问题。1.1.如果线性方程组无解怎么办第一个问题还是关于线性方程组解的问题。在上一讲里,我们从空间映射的角度分析了线性方程组的解,阐述了在何种情况下有解,并且如何来描述整个解的空间。那么接下来,我们看看下面这个方程组:2x+y=42x+y=42x+y=4x+2y=3x+2y=3x+2y=3x+4y=9x+4y=9x+4y=9很明显,这个方程组没有解。但是我们不能仅仅停留在这里,因为实际工程领域如果出现这种情况,该如何去解原创 2020-11-15 10:55:54 · 3552 阅读 · 15 评论 -
【机器学习线性代数】08 最小二乘:投影的本质与方法技巧
在上一讲,我们学习了如何将一个向量向空间中任意一个子空间进行投影,那么这一讲我们重点关注向哪投影,即如何选择投影子空间的问题,并介绍运用这一思想的最小二乘近似法。1.互补的子空间我们知道,在一个RmR^mRm空间中有一个向量bbb,我们可以选取mmm个线性无关的向量a1a_1a1,a2a_2a2,…,ama_mam,我们将向量bbb向每个基向量上进行投影,我们得到了mmm个投影向量p1p_1p1,p2p_2p2,…,pmp_mpm,并且显而易见的是,他们满足:b=p1+p2+...+pmb=原创 2020-11-15 10:56:42 · 3483 阅读 · 16 评论 -
【机器学习线性代数】09 相似变换:不同视角下的相同变换
1.知识回顾:坐标值取决于基底1.1.基底不同,向量的坐标值就不同在这一讲的开始,我们再次提及一个反复强调的核心概念:向量在空间中的位置是绝对的,而其坐标值却是相对的,坐标的取值依托于其所选取的基底。更直白的说就是,对于同一个向量,选取的基底不同,其所对应的坐标值就不同。我们用图1.来再次回顾一下:我们看到,图中的向量aaa,他在空间中的位置是固定的,如果我们使用第一组基底(e1,e2)(e_{1},e_{2})(e1,e2), 即([10],[01])(\begin{bmatrix} 1 \原创 2020-11-15 10:59:03 · 3050 阅读 · 9 评论 -
【机器学习线性代数】10 相似对角矩阵:漂亮的最简形式
1.构造对角化转换矩阵PPP的思路现在,我们来讨论上一节末尾遗留的那个问题:既然我们知道对角矩阵是具有最佳性质的相似矩阵,并且我们可以通过P−1APP^{-1}APP−1AP得到矩阵AAA的相似对角矩阵,那么转换矩阵PPP给如何构造?很简单,我们直接从这个式子入手:首先,矩阵PPP和AAA一样,均为nnn阶方阵。为了方便分析和描述,我们把他写成一组列向量并排排列的形式:P=[p1p2...pn]P=\begin{bmatrix} p_{1}&p_{2}&...&p_{n} \e原创 2020-11-16 21:45:06 · 3128 阅读 · 4 评论 -
【机器学习线性代数】11 核心灵魂:矩阵的特征值与特征向量
有了前面两讲的理论铺垫,我们对矩阵相似和对角化有了深入了解,最终,我们的落脚点就是特征值和特征向量。在这一讲当中,我们将这一块儿的内容彻底解决,一方面系统性的梳理一下他的相关重要特性,另一方面从技术层面来讲解特征值和特征向量的求解方法。1.几何意义回顾我们简要的再回顾一下Ap=λpAp=\lambda pAp=λp这个核心表达式:从空间几何意义的角度来理解,对于一个方阵AAA,若ppp是他的特征向量,λ\lambdaλ是对应的特征值,则意味着向量ppp在方阵AAA的作用下,他的空间变换就是其长度沿着向量原创 2020-11-16 21:47:03 · 3655 阅读 · 4 评论 -
【机器学习线性代数】12 对称矩阵的优秀特性
这里,我们花一讲的篇幅专门讨论一下对称矩阵,我们把对称矩阵称之为“最重要的”矩阵丝毫不夸张,因为他拥有许多非常重要和漂亮的性质。1.对称矩阵基本特性回顾首先,我们简单的回顾一下在之前的内容里介绍过的关于对称矩阵的基本特性:如果一个矩阵SSS的所有数据项都满足Sij=SjiS_{ij}=S_{ji}Sij=Sji,那么这个矩阵就是一个对称矩阵。通俗的说,一个对称矩阵通过转置操作,得到的仍然是他自身,即满足:S=STS=S^TS=ST。我们从这里面还可以推断出对阵矩阵SSS所蕴含的一个前提条件:他必须原创 2020-11-16 21:48:33 · 2978 阅读 · 7 评论 -
【机器学习线性代数】13 提取主成分:矩阵的特征值分解
1.期望与方差看到这个小标题,读者也许会想,这里不是在讲线性代数么,怎么感觉像是误入了概率统计的课堂?这里我专门说明一下,在这一讲里,我们的最终目标是分析如何提取数据的主成分,如何对手头的数据进行降维,以便后续的进一步分析。往往问题的切入点就是数据各个维度之间的关系以及数据的整体分布。因此,我们有必要先花点功夫,来梳理一下如何对数据的整体分布情况进行描述。首先大家知道,期望衡量的是一组变量XXX取值分布的平均值,我们一般记作:E[X]E[X]E[X],反映的是不同数据集的整体水平。比如,在一次期末考试原创 2020-11-16 21:49:11 · 3789 阅读 · 11 评论 -
【机器学习线性代数】14 奇异值分解(上):原理与通用性
1.再谈特征值分解的几何意义在上一讲,我们讲了通过特征值分解(EVD)的方法对样本的特征提取主成分,从而实现数据的降维。在介绍奇异值分解(SVD)之前,我们再着重挖掘一下特征值分解的几何意义。1.1.分解过程回顾我们最开始获得的是一组原始的m×nm\times nm×n数据样本矩阵AAA,其中,mmm表示特征的个数,nnn表示样本的个数。通过与自身转置相乘:AATAA^TAAT得到了样本特征的mmm阶协方差矩阵CCC,通过求取协方差矩阵CCC的一组标准正交特征向量q1,q2,...qmq_1,q_2,原创 2020-11-16 21:51:03 · 2920 阅读 · 3 评论 -
【机器学习线性代数】15 奇异值分解(下):进行数据降维
我们在上一讲的理论基础上继续推进,来讲解将任意一个m×nm\times nm×n形状的矩阵AAA成功完成奇异值分解之后,应如何对原始数据进行主成分分析和数据降维。1.行压缩数据降维我们直接从矩阵AAA的奇异值分解:A=UΣVTA=U\Sigma V^TA=UΣVT入手,分析如何进行行压缩数据降维。等式两侧同时乘以左奇异矩阵的转置:UTU^TUT,得到:UTA=UTUΣVT=ΣVTU^TA=U^TU\Sigma V^T=\Sigma V^TUTA=UTUΣVT=ΣVT,重点是左侧的UTAU^TAUTA,原创 2020-11-16 21:52:07 · 1916 阅读 · 2 评论 -
【机器学习线性代数】16 SVD在推荐系统中的应用
1.应用背景在这一节里,我们来重点分析一下如何把 SVDSVDSVD 的处理方法应用到推荐系统中,我们在一个实际的案例中进行探讨。有一个风味美食平台,经营着多种不同风味儿的地方特色美食,在系统中维护着一个原始的打分表:表中的行表示各个用户,列表示各种菜品,每一个用户在对一个菜品消费之后都会对其进行打分,分数为1分~5分,分数越高表示评价越高。如果该用户没有消费某道菜品,则分数值默认为0分。在我们的例子中,一共有18名用户对11个不同的菜品进行了打分评价,原始的打分数据如下:2.整体思路概述我原创 2021-04-08 10:51:59 · 1721 阅读 · 3 评论 -
【机器学习线性代数】17 利用SVD进行彩色图片压缩
这一节,我们再来介绍一个奇异值分解的实际案例:即如何基于SVD的主成分分析方法,来对一张彩色图像进行压缩处理。1.图像的数据表示很明显,如果要对一张图像进行压缩,首先我们得知道应该如何用数据的形式来表示一张具体的图像,在此基础上才能进行下一步的数据压缩处理。那么首先我们利用python中的第三方工具 pillowpillowpillow,来读取一张样例图片,观察他的参数信息。这里我们要处理的样例图片如下:这里要提醒一下大家,由于pillowpillowpillow库是第三方工具,不是python3原创 2021-04-08 11:00:50 · 1971 阅读 · 3 评论 -
【机器学习线性代数】18 傅里叶级数:从向量的角度看函数
1 函数:无穷维向量空间是整个线性代数理论与实践的核心概念,在这一节中我们再一次的遇见了他。我们先简要的回顾一下之前介绍过的向量空间有关概念。向量空间RnR^nRn由所有含有 nnn 个成分的列向量所构成。比如,R4R^4R4空间中就包含了所有含有 444 个成分的列向量[x1x2x3x4]\begin{bmatrix} x_1\\x_2\\x_3\\x_4\end{bmatrix}⎣⎢⎢⎡x1x2x3x4⎦⎥⎥⎤, 因此RnR^nRn空间也称为是 nnn 维空间,并且在这个向量空间RnR原创 2021-04-08 11:05:04 · 2099 阅读 · 1 评论 -
【机器学习线性代数】19 复数域中的向量与矩阵
#1 回顾:复数和复平面首先我们快速的回顾一下复数和复平面的基本知识,便于后续知识的介绍。我记得当我们接触到x2=−1x^2=-1x2=−1这个方程的时候,虚数iii第一次进入到了我们的世界中,对于虚数而言,他的加法和乘法运算都并无新意:i+i=2ii+i=2ii+i=2i2i+3i=5i2i+3i=5i2i+3i=5i唯一的新奇之处就在于虚数的平方运算,也就是在解方程x2=−1x^2=-1x2=−1的时候,其平方运算结果是i2=−1i^2=-1i2=−1。那么对虚数有了认识之后,复数的概念就很原创 2021-04-08 11:06:42 · 2669 阅读 · 2 评论 -
【机器学习概率统计】01 理论基石:条件概率、独立性与贝叶斯
1.从概率到条件概率1.1.条件概率的发生背景从这一节开始,我们就正式进入到概率统计的内容板块中了。对于概率,相信大家都不会陌生,在各阶段的数学课上,他都是高频出现的常客,最简单的概率场景比如掷骰子,我问你:第一次掷出的点数为555的概率为多大?你会毫不犹豫的说出答案:16\frac{1}{6}61。这太简单了,如果我们只满足于此,就没有什么意义了。接下来我增加一个限定条件:已知在抛出骰子是奇数的情况下,抛掷点数为555的可能性有多大?发现了没有,在第二个问题中我们就没有直接的只问投掷出555这原创 2020-11-16 22:00:37 · 11791 阅读 · 9 评论 -
【机器学习概率统计】02 事件的关系:深入理解独立性
1.重新梳理两个事件的独立性在上一小节中,我们引入了条件概率P(A∣B)P(A|B)P(A∣B)这个重要概念,何谓条件概率?条件概率的核心就是刻画了事件BBB的发生给事件AAA是否发生所带来的额外信息。在所有的条件概率情况当中,我们注意到一个有趣且重要的特殊情况,那就是事件BBB的发生并没有给事件AAA的发生带来什么新的额外信息。换言之,事件BBB的发生与否,并没有影响到事件AAA发生的概率,换句话说就是P(A∣B)=P(A)P(A|B)=P(A)P(A∣B)=P(A)所表达的意思。此时,我们称事件A原创 2020-11-16 22:01:32 · 6338 阅读 · 3 评论 -
【机器学习概率统计】03 离散型随机变量:分布与数字特征
1.从事件到随机变量在前面两节内容中,我们介绍了事件概率的一些基本概念,给大家找了找概率的“感觉”,对于“试验”、“试验结果”、“事件发生的概率”等等重要概念有了直观的认识,那么我们进一步来讨论一个新的概念:我们可以把某一次具体试验中所有可能出现的结果构成一个样本空间,对于样本空间中的每一个可能的试验结果,我们去将他关联到一个特定的数。这种试验结果与数的对应关系就形成了随机变量,我们将试验结果所对应的数称为随机变量的取值。这里就是我们接下来要讨论的重要内容。请注意这个概念中的一个关键点,随机变量如何取原创 2020-11-16 22:02:24 · 6343 阅读 · 2 评论 -
【机器学习概率统计】04 连续型随机变量:分布与数字特征
在上一节里,我们介绍了离散型随机变量,实际上,取值于连续区域的随机变量的应用领域也是十分普遍的,比如汽车行驶的速度、设备连续正常运行的时间等等,这些在实际应用中都非常广泛,连续型随机变量能够刻画一些离散型随机变量无法描述的问题。1.概率密度函数在连续型随机变量的讨论范围中,随机变量由离散的变为了实轴上的连续值,那么与离散型随机变量的分布列以及PMFPMFPMF函数相对应,我们就有了连续型随机变量相类似的新概念:概率密度函数PDFPDFPDF,二者在概念上是完全相对应的。我们回顾一下前面在讲离散型随机变原创 2020-11-16 22:03:15 · 3293 阅读 · 3 评论 -
【机器学习概率统计】05 多元随机变量(上):联合、边缘与条件
1.试验中引入多个随机变量前两节我们讨论的离散型和连续型随机变量都是单一变量,然而在现实当中,一个试验常常会涉及到多个随机变量,所谓多个随机变量是指在同一个试验结果之下产生的多个随机变量。这些随机变量的取值是由试验结果确定的,因此它们的取值会存在相互关联,这里我们先以离散型随机变量为例,将离散型随机变量的分布列和期望推广到多个随机变量的情况,并且进一步在此基础上讨论多元随机变量条件和独立的重要概念。好了,此刻我们假设试验中不再只有一个随机变量,而是两个随机变量XXX和 YYY,同时描述他们俩的取值概率,原创 2020-11-17 19:30:17 · 3233 阅读 · 8 评论 -
【机器学习概率统计】06 多元随机变量(下):独立与相关
这一小节,我们开始讨论多元随机变量之间的关系,重点围绕独立性和相关性的概念展开。1.关于独立性的讨论1.1.随机变量与事件的独立性在概率统计的最开始部分,我们探讨过事件独立性的概念,同时我们知道:随机变量的取值,本质上同样也是一个事件,因此不难理解其独立性的概念。首先我们讨论随机变量与事件之间的相互独立性。那么回到定义中去,我们可以说他的本质就是事件的发生与否,不会对随机变量的取值提供额外的新信息,这其实就是照搬了事件独立性的概念。如果用条件概率的式子来表示的话,就有:如果随机变量XXX独立于事件原创 2020-11-17 19:31:17 · 2975 阅读 · 8 评论 -
【机器学习概率统计】07 多元随机变量实践:聚焦多元正态分布
在前面两节中,我们介绍了多元随机变量的有关概念,重点围绕着多元随机变量的联合概率、条件与边缘概率分布以及独立性和相关性,阐述了多元随机变量之间的关系,这些都是多元随机变量重点需要关注和研究的问题。在上两节理论知识的基础之上,我们在这一小节里以多元正态分布作为实际例子,让大家能够更直观的理解和强化这些概念和方法。1.再谈相关性:基于多元正态分布很简单,我们举一个例子,之前我们介绍过随机变量的正态分布,这里我们引入多元随机变量的正态分布:如果向量ZZZ由若干个遵从标准正态分布的独立同分布随机变量 Z1,原创 2020-11-17 19:31:50 · 2193 阅读 · 5 评论 -
【机器学习概率统计】08 极限思维:大数定理与中心极限定理
1.一个背景话题本节课我们来介绍概率统计当中的极限思维,我们首先从一个大家都非常熟悉的场景切入来展开我们本节内容的讨论。比如说,我们想获得本省151515岁男生的平均身高,这时你会怎么做?显然你不会也不可能真的去统计全省所有151515岁男生的身高,然后再求平均值,这样做不太现实。因此,你会去找一些样本,也就是找一部分本省151515岁的男生,取他们身高的平均值,用这个样本的平均值去近似的估计所有151515岁男生的平均身高。没错,一般就是这么干的,那接下来我再问你,找100100100个样本取得的平原创 2020-11-17 21:16:48 · 2825 阅读 · 12 评论 -
【机器学习概率统计】09 推断未知:统计推断的基本框架
1.进入统计学从这一讲开始,我们进入到统计推断的主题。统计学使用概率论的基本方法,研究怎样通过试验收集带有随机误差的样本数据,并在设定的统计模型之下,进行后续的研究工作,主要分为两大类:第一类是对这些已有的样本数据进行分析,计算他们的一些统计特征,比如样本均值、方差等等,即描述统计的范畴。第二类是更重要的,是通过这些已有的样本数据,对整个未知的总体进行推断,估计出总体当中我们感兴趣的未知参数值,即统计推断的工作,这是我们重点关注的内容。那我们为什么需要关注统计推断的方法呢?因为,当我们需要对一个未原创 2020-11-17 21:17:20 · 2566 阅读 · 11 评论 -
【机器学习概率统计】10 经典统计推断:寻找最大似然
从这一节开始,我们来介绍统计推断的具体方法。1.统计推断的两大学派在统计领域,有两种对立的思想学派:贝叶斯学派和经典学派(也称频率学派),他们之间最重要的区别就是如何看待被估计的未知参数。贝叶斯学派的观点是将其看成是已知分布的随机变量,而经典学派的观点是将其看成未知的待估计的常量。1.1.贝叶斯统计推断具体来说,贝叶斯推断方法是将未知参数看做是一个随机变量,他具备某种先验分布。在已知观测数据xxx的基础上,可以利用贝叶斯公式来推导后验概率分布pΘ∣X(θ∣x)p_{\Theta|X}(\theta|原创 2020-11-17 21:17:51 · 2676 阅读 · 3 评论 -
【机器学习概率统计】11 贝叶斯统计推断:最大后验
这一节,我们来介绍另外一种统计推断方法:贝叶斯统计推断方法。1.回顾贝叶斯定理首先,我们先来复习一下贝叶斯定理:p(Θ∣X)=p(X∣Θ)p(Θ)p(X)p(\Theta|X)=\frac{p(X|\Theta)p(\Theta)}{p(X)}p(Θ∣X)=p(X)p(X∣Θ)p(Θ)在这个简简单单的式子当中,蕴含了我们要掌握的很多重要内容:贝叶斯定理当中的四个概率表达式,他们都非常重要,在这一节的内容中将反复出现,我们来一一解析一下:p(Θ)p(\Theta)p(Θ):先验分布。 反映的是在原创 2020-11-18 22:42:03 · 3084 阅读 · 4 评论 -
【机器学习概率统计】12 由静向动:随机过程导引
1.随机变量与随机过程在详细介绍完随机变量的内容之后,这一部分我们开始进入到随机过程的部分中来。简单点说,随机过程就是一串随机变量的序列,在这个序列当中,每一个数据都可以被看作是一个随机变量,因此我们在随机过程的概率模型处理过程中,重点关注的就是时间和数据这两方面内容。所以简单地说,随机过程就是一串(有限或无限)随机变量序列,常见的随机过程建模场景数不胜数,比如:世界杯足球赛中每场比赛进球数构成的序列;沪深300指数每日收盘价构成的数据序列;某十字路口每分钟通过的车辆数量构成的序列;等等等等,可原创 2020-11-18 22:42:27 · 2041 阅读 · 3 评论 -
【机器学习概率统计】13 状态转移:初识马尔科夫链
1.回顾两类重要的随机过程在上一小节随机过程的概述中,我们提到过两类非常非常典型且重要的随机过程,一类是:伯努利过程和泊松过程,这一类随机过程是无记忆性的,也就是说未来的状态不依赖于过去的状态:新的“成功”或“到达”不依赖于该过程过去的历史情况。而另一类则正好相反,未来的情况会依赖于过去的情况,并且能够在某种程度上通过过去发生的情况去预测未来,例如这一节我们的核心内容:马尔科夫过程,他在许许多多的领域都有深入和广泛的应用。2.离散时间的马尔科夫链2.1.马尔科夫链三要素这是一类随着时间而发生状态变原创 2020-11-18 22:42:58 · 3260 阅读 · 3 评论 -
【机器学习概率统计】14 变与不变:马尔科夫链的极限与稳态
1.马尔科夫链的极限行为1.1.极限与初始状态无关的情况这里我们接着上一节的社会阶层流动概率转移矩阵来引入极限行为的话题。对于转移概率矩阵[0.70.20.10.30.50.20.20.40.4]\begin{bmatrix}0.7&0.2&0.1\\0.3&0.5&0.2\\0.2&0.4&0.4\end{bmatrix}⎣⎡0.70.30.20.20.50.40.10.20.4⎦⎤,我们在上一小节已经计算过随着转移步数nnn的逐步增大,nn原创 2020-11-18 22:47:21 · 2600 阅读 · 3 评论 -
【机器学习概率统计】15 基于马尔科夫链的近似采样
从这一小节开始,我们主要来介绍基于马尔科夫链的近似采样过程。具体如何采样,以及整个采样过程中的思维过程,我们随着这节的内容讲解而逐步展开。1.再看马尔科夫链的稳态在基于马尔科夫链的采样过程中,发挥核心关键作用的是马尔科夫链的稳态以及稳态分布。稳态的概念,我们在之前的内容中已经详细的讲解过了,为了充分理解他,用好它,我们在这里动态的演示一下一个指定的马尔科夫链的状态转移以及最终到达稳态的过程。通过下面这段代码运行出来的实际效果,大家会非常直观的理解马尔科夫链的稳态。代码片段:import numpy原创 2020-11-18 22:43:54 · 2498 阅读 · 1 评论 -
【机器学习概率统计】16 蒙特卡洛思想与接受-拒绝采样
上一小节的末尾,我们留下了一个看上去非常复杂的问题,感觉无从下手,我们该如何去找到平稳分布恰好唯一就是目标采样分布的马尔科夫链呢?后续这两节内容,我们就重点带领大家以一种通用的方法,去寻找这个马尔科夫链。1.应用蒙特卡洛方法进行样本采样1.1.蒙特卡洛方法理论支撑在最开始,我们先不急着去寻找马尔科夫链,把有关马尔科夫的事儿先统统放在一旁不管。首先介绍这个过程中所运用到的**“拒绝-接受”**操作技巧和他背后的思想方法。在前面介绍的贝叶斯统计推断方法中我们是基于纯解析的方法,通过手动计算后验概率分布的原创 2020-11-18 22:44:27 · 2636 阅读 · 1 评论 -
【机器学习概率统计】17 马尔科夫链蒙特卡洛方法:通用采样引擎
1.问题的目标这一节,我们走到了近似采样的最后,也是最关键的一部分,可以说是黎明前的最后一夜了,这里我们要一举解决最核心的关键问题:对于任意给定的目标分布π(x)\pi(x)π(x),我们如何找到以他为唯一平稳分布的马尔科夫链,并且基于马尔科夫链采样的方法,实现对其的近似采样。找这么一个马尔科夫链,本质上就是要找到他的转移概率矩阵PPP,那么首先先确立一个思考路径:有没有什么条件,使得只要我们的转移矩阵PPP满足了,就意味着目标分布π(x)\pi(x)π(x)就是转移矩阵PPP对应的马尔科夫链的平稳分布原创 2020-11-18 22:45:33 · 1846 阅读 · 1 评论 -
【机器学习概率统计】18 隐马尔科夫模型:明暗两条线
1.从马尔科夫链到隐马尔科夫模型在前面几节的内容里,我们详细介绍了马尔科夫链,下面我们接着来说说隐马尔科夫模型,他的英文全称是Hidden Markov Model,也就是我们经常看到的HMM模型。隐马尔科夫模型是一种统计模型,他广泛的应用在语音识别、词性自动标注、概率文法等自然语言处理的各个应用领域。经过前面的学习,我们对马尔科夫链已经相当熟悉了,这里谈到的隐马尔科夫模型与他在名称上可以说是非常接近。其关键差异就在于一个“隐”字,在这个模型中,他首先由一个隐藏的马尔科夫链随机生成一个状态原创 2020-11-18 22:46:15 · 1532 阅读 · 0 评论 -
【机器学习概率统计】19 概率估计:隐马尔科夫模型观测序列描述
1.隐马尔科夫模型要研究什么1.1.一个赌场的故事背景在上一小节里,我们基本上把隐马尔科夫模型的运行机制和基本要素讲清楚了,那么他的关键研究要点是什么?或者说一般而言我们关注的研究问题聚焦在哪些方面呢?我们不妨来看一个例子,这个例子可以更好的讲清楚我们为什么要研究这个模型,以及问题的关键点在哪。这里我们举一个赌博的例子,大家应该都听说过用骰子猜大小的赌博游戏,掷出骰子,如果点数为1,2,31,2,31,2,3,则为小,如果点数为4,5,64,5,64,5,6,则为大。对于一个正常的骰子而言,掷出1,原创 2020-11-18 22:48:11 · 1526 阅读 · 2 评论