(三)从零开始学人工智能—数学基础:概率论与数理统计

概率论与数理统计

数理统计与机器学习有什么关系呢?哪些地方需要用到数理统计?

实际上,二者关心的是同一件事,即我们从数据中学到了什么。事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。 概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。

例如,在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设,就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词 x x x出现在邮件中的概率条件独立于单词 y y y。很明显这个假设是非一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。

拓展概括,更直白的说吧:

  • 线性代数提供了数据的表示;
  • 概率论与统计提供了问题的假设;
  • 微积分提供了问题的解决方案。

目前为止,我们已经知道了数据的表示及变换等,接下来进入第二个环节,有关问题的假设,即数理统计部分。

1. 什么是统计?什么是概率?

从一个不搞笑的笑话开始吧

某次生物课考试,有一道题是看动物的脚,猜该动物的名称,一考生实在是不会做,愤怒的把试卷撕掉就往外走,老师见了,抓住他大声说道:“你哪个班的,这么嚣张”。该学生把裤腿一提,说道:“你猜呀,你猜呀”!扬长而去~

工科男就是笑点低,这也能叫做笑话~服气🎃,不管怎样,这个学生绝对是个统计高手。啊哈哈哈

辣么,统计是什么,统计就是给你一个黑盒子,里面装着猫和狗,只让你看到他们的腿,然后让你猜哪个腿是猫的:

在这里插入图片描述

你可能会问,这怎么猜?

在统计里会总结过去的数据,然后对这些数据进行总结归纳。就像刚才的例子,我们要判断出哪个腿属于猫。需要收集所有猫的腿(也就是过去的数据),然后总结这些腿的特征(总结归纳)。当图片里的腿出现时,你可以根据之前的总结归纳来判断出这腿是不是猫的腿。当然,你也不会无聊到判断哪只腿是猫,哪只腿是狗的,更多时候你可能喜欢看的是美女的腿~😍😍。

所以,统计是对过去数据进行“总结归纳”,表示如下图

在这里插入图片描述

那概率又是什么呢?

**概率是用数值来表示事情发生的可能性大小。**举个例子,小马想创业,去找投资人王思聪要钱。王思聪可不是傻X。然后就派人去调查小马过去的经历(看他有什么创业的条件),然后预测他可能成功的概率是多大。经过深入调查发现小马他爸是马云(给定条件),得出小马创业概率成功率是99%(预测未来)。

如果我们用猫和狗这个例子来举例,就是给了你猫和狗的行为特征(给定条件),然后预测猫和狗明天撕逼的可能性多大。

所以,概率是给定条件,对“数据”进行预测,可以用下图来表示:

在这里插入图片描述

小结

用简单的话来总结:
统计=回顾过去,进行归纳总结
概率=给定条件,对未来进行预测

用稍微专业一点的话来总结:
统计=样本(回顾过去的数据)归纳出总体(总结)
概率率=总体(给定条件)对样本进行预测

辅助理解:

统计学:根据手中信息,猜猜桶里有啥?(样本归纳总结出总体)

概率论:根据桶中信息,猜猜手里有啥?(总体对样本进行预测)

在这里插入图片描述

2. 随机变量与概率分布

上文介绍了概率的本质:某件事发生的可能性。如下图

在这里插入图片描述

  • 概率的值永远在0-1范围之间。
  • 如果某件事不可能发生,则其概率为0,对应的就是这条直线上最左端的位置。
  • 如果某件事肯定会发生,则其概率为1,,对应的就是这条直线上最右端的位置,也就是那个点赞的大拇指

那…怎么计算概率呢?

  • 在网上查找前人计算的经验值。

  • 用数据分析来计算出事件发生的数目,然后除以总数目。

关于概率的具体表现形式,还得从概率分布说起,为了搞明白什么是概率分布,还得从数据类型分布说起,为了…,打住打住,环环相扣何时了,行吧,就从数据类型走起。

数据类型,也就是我们的随机变量,有两种:离散数据和连续数据。

随机变量(random variable)

表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
​随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。

变量与随机变量的区别:

当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。

比如:
​ 当变量 x x x值为100的概率为1的话,那么 x = 100 x=100 x=100就是确定了的,不会再有变化,除非有进一步运算。
​ 当变量 x x x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

离散数据根据名称很好理解,就是数据的取值是不连续的。例如掷硬币就是一个典型的离散数据,因为抛硬币的就2种数值(也就是2种结果,要么是正面,要么是反面)。

你可以把离散数据想象成一块一块垫脚石,你可以从一个数值调到另一个数值,同时每个数值之间都有明确的间隔。

在这里插入图片描述

连续数据正好相反,它能取任意的数值。例如时间就是一个典型的连续数据1.25分钟、1.251分钟,1.2512分钟,它能无限分割。连续数据就像一条平滑的、连绵不断的道路,你可以沿着这条道路一直走下去。

在这里插入图片描述

那什么是分布呢?

数据在统计图中的形状,叫做它的分布:

在这里插入图片描述

不好意思,楼上放错了,(冰岛雷克雅未克大教堂,其实很类似-直观),是下面这个(还不如楼上)

在这里插入图片描述

其实我们生活中也会聊到各种分布。比如日常“开车”的时候,不同季节男人的目光分布如下图(憋住,不要流鼻血):

在这里插入图片描述

也即是

在这里插入图片描述

各位老铁,测测你目光分布在哪儿~

在这里插入图片描述

好了,美女也看了,醒醒,专心学习吧。

现在,我们已经知道了两件事:

1)数据类型(也叫随机变量)有2种:离散数据类型(例如抛硬币的结果),连续数据类型(例如时间) 2)分布:数据在统计图中的形状。

而我们的概率分布就是二者(数据类型+分布)的结合:概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。

在这里插入图片描述

很显然的,根据数据类型的不同,概率分布分为两种:离散概率分布,连续概率分布。

小结

随机变量与概率分布的联系—Part1

一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法,就是 概率分布(probability distribution).

随机变量可以分为离散型随机变量和连续型随机变量,相应的描述其概率分布的函数是:

概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布,通常用大写字母 P P P表示。

概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布,通常用小写字母 p p p表示。

辣么,问题就来了。为什么你要关心数据类型呢?

因为数据类型会影响求概率的方法。

对于离散概率分布,我们关心的是取得一个特定数值的概率。例如抛硬币正面向上的概率为: P ( x = 正 面 ) = 1 / 2 P(x=正面)=1/2 P(x=)=1/2

而对于连续概率分布来说,我们无法给出每一个数值的概率,因为我们不可能列举每一个精确数值。

例如,你在咖啡馆约妹子出来,你提前到了。为了给妹子留下好印象,你估计妹子会在5分钟之内出现,有可能是在4分钟10秒以后出现,或者在4分钟10.5秒以后出现,你不可能数清楚所有的可能时间,你更关心的是在妹子出现前的1-5分钟内(范围),因为你想把发型重新整理下(虽然你因为加班头发已经秃顶了,但是…气质得有,发型不能乱),给妹子留个好印象。所以,对于像时间这样的连续型数据,你更关心的是一个特定范围的概率是多少。

在这里插入图片描述

小结

随机变量与概率分布的联系—Part2

1.离散型随机变量和概率质量函数

PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

  • 一般而言, P ( x ) P(x) P(x) 表示时 X = x X=x X=x的概率.
  • 有时候为了防止混淆,要明确写出随机变量的名称 P ( P( P(x = x ) =x) =x)
  • 有时候需要先定义一个随机变量,然后制定它遵循的概率分布x服从 P ( P( P(x ) ) )

PMF 可以同时作用于多个随机变量,即**联合概率分布(joint probability distribution) ** P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)*表示 X = x X=x X=x Y = y Y=y Y=y同时发生的概率,也可以简写成 P ( x , y ) P(x,y) P(x,y).

如果一个函数 P P P是随机变量 X X X 的 PMF, 那么它必须满足如下三个条件

  • P P P的定义域必须是的所有可能状态的集合
  • ∀ x ∈ ∀x∈ xx, 0 ≤ P ( x ) ≤ 1 0 \leq P(x) \leq 1 0P(x)1.
  • ∑ x ∈ X P ( x ) = 1 ∑_{x∈X} P(x)=1 xXP(x)=1. 我们把这一条性质称之为 归一化的(normalized)

2.连续型随机变量和概率密度函数

如果一个函数 p p p是x的PDF,那么它必须满足如下几个条件

  • p p p的定义域必须是 x 的所有可能状态的集合。
  • ∀ x ∈ X , p ( x ) ≥ 0 ∀x∈X,p(x)≥0 xX,p(x)0. 注意,我们并不要求 p ( x ) ≤ 1 p(x)≤1 p(x)1,因为此处 p ( x ) p(x) p(x)不是表示的对应此状态具体的概率,而是概率的一个相对大小(密度)。具体的概率,需要积分去求。
  • ∫ p ( x ) d x = 1 ∫p(x)dx=1 p(x)dx=1, 积分下来,总和还是1,概率之和还是1.

注:PDF p ( x ) p(x) p(x)并没有直接对特定的状态给出概率,给出的是密度,相对的,它给出了落在面积为 δ x δx δx的无线小的区域内的概率为 p ( x ) δ x p(x)δx p(x)δx. 由此,我们无法求得具体某个状态的概率,我们可以求得的是 某个状态 x x x 落在 某个区间 [ a , b ] [a,b] [a,b]内的概率为 ∫ a b p ( x ) d x \int_{a}^{b}p(x)dx abp(x)dx.

概率分布是怎么得出来的呢?

当统计学家们开始研究概率分布时,他们看到,有几种形状反复出现,于是就研究他们的规律,根据这些规律来解决特定条件下的问题。几种经常出现的形状就是就是日常常见的几种特殊分布。

这些特殊分布有什么用呢?回想一下高考的时候,准备的那几篇英语作文“万能模板”,虽然你最后也没用上吧😂😹,但是万一呢,岂不是爽翻!

2.2.3 常见概率分布

接下里我们就聊聊几种常见的分布。

  • 3种离散概率分布:二项分布,泊松分布,几何分布
  • 1种连续概率分布:正态分布

介绍之前,提前引入两个知识点:

期望:概率的平均值

标准差:衡量数据的波动大小

二项分布

预期解决以下三个问题:

1.二项分布有啥用? 2.如何判断是不是二项分布? 3.二项分布如何计算概率?

二项分布有啥用?

当你遇到一个事件,如果该事件发生次数固定,而你感兴趣的是成功的次数,那么就可以用二项分布的公式快速计算出概率来。

比如,你5家公司的股票(谷歌,Facebook,苹果,阿里巴巴,腾讯),为了保底和计算投入进去多少钱,你想知道其中3只股票帮你赚到钱(成功的次数)的概率多大,那么这时候就可以用二项分布计算出来。

在这里插入图片描述

如何判断是不是二项分布?

首先,为啥叫二项,不叫三项,或者二愣子呢?故明思义,二项代表事件有2种可能的结果,把一种称为成功,另外一种称为失败。生活中有很多这样2种结果的二项情况,例如,你表白是二项的,一种成功,一种是失败。

那满足什么条件可判断事件符合二项分布呢?只要符合下面几个特点就可以判断某事件是二项分布了:

  • 做某件事的次数(也叫试验次数)是固定的,用n表示。

例如,抛硬币3次,投资5支股票。

  • 每一次事件都有两个可能的结果(成功,或者失败)

例如,每一次抛硬币有2个结果:正面表示成功,反面表示失败。每一次投资美股有2个结果:投资成功,投资失败。

  • 每一次成功的概率都是相等的,成功的概率用p表示

例如,每一次抛硬币正面朝上的概率都是1/2。你投资了5家公司的股票,假设每一家投资盈利成功的概率都相同。

  • 你感兴趣的是成功 x x x次的概率是多少。那么就可以用二项分布的公式快速计算出来了。

例如,你已经知道了前面讲的5家美股的赚钱概率最大,所以你买了这5家公司的股票,假设投资的这5家公司成功的概率都相同,那么你关心其中只要有3个投资成功,你就可以赚翻了,所以想知道成功3次的概率。

根据这几个特点,我们就知道抛硬币是一个典型的二项分布,还有你投资的这5支股票也是一个典型的二项分布(在假设每家公司投资成功的前提下)。

二项分布如何计算概率?

怎么计算符合二项分布事件的概率呢?例如:你抛硬币3次,2次正面朝上的概率是多少? 你买了这5家公司的股票,3支股票赚钱的概率是多大?

根据特点中的符号表示,可通过如下公式进行计算:

P ( x ) = C n x p x ( 1 − p ) n − x (1) P(x)=C^x_np^x(1-p)^{n-x} \tag{1} P(x)=Cnxpx(1p)nx(1), 其中 n n n为事件发生次数,而 x x x为成功的次数。

例如,抛硬币5次( n n n),恰巧有3次正面朝上( x = 3 x=3 x=3,抛硬币正面朝上概率 p = 1 / 2 p=1/2 p=1/2),可以用式(1)计算出概率为31.25%。

二项分布的期望与标准差

期望: E ( x ) = n p E(x)=np E(x)=np,表示某事件发生 n n n次,预期成功多少次。

标准差: σ ( x ) = n p ( 1 − p ) \sigma(x)=\sqrt{np(1-p)} σ(x)=np(1p) ,表示数据波动大小

知道这个期望有啥用呢?

做任何事情之前,知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次,每次概率是 1 / 2 1/2 1/2,那么期望 E ( x ) = 5 ∗ 1 / 2 = 2.5 E(x)=5*1/2=2.5 E(x)=51/2=2.5次,也就是有大约3次你可以抛出正面。

再比如你之前投资的那5支股票,假设每支股票帮你赚到钱的概率是80%,那么期望 E ( x ) = 5 ∗ 80 % = 4 E(x)=5*80\%=4 E(x)=580%=4,也就是预期会有4只股票投资成功帮你赚到钱。

几何分布

其实我一直把几何分布,叫做二项分布的孪生兄弟,因为他两太像了。只有一点不同,就像海尔兄弟只有内裤不同一样。

在这里插入图片描述

我们还是从下面这个套路聊起来一起找出这个不同的“劲爆点”:

1.几何分布有啥用? 2.如何判断是不是几何分布? 3.几何分布如何计算概率?

几何分布有啥用?

如果你想知道尝试多少次能取得第一次成功的概率,则需要几何分布。

如何判断是不是几何分布?

只要符合下面几个特点就可以判别事件符合几何分布了:

  • 做某事件次数(也叫试验次数)是固定的,用n表示

例如,抛硬币3次,表白5次

  • 每一次事件都有两个可能的结果(成功,或者失败)

例如,每一次抛硬币有2个结果:正面表示成功,反面表示失败。每一次表白有2个结果:表白成功,表白失败。

  • 每一次“成功”的概率都是相等的,成功的概率用p表示

例如,每一次抛硬币正面朝上的概率都是1/2。假设你是初出茅庐的小伙子,还不是老油条,所以你表白每一次成功的概率是一样的。

  • 你感兴趣的是,进行x次尝试这个事情,取得第1次成功的概率是多大

例如,你在玩抛硬币的游戏,想知道抛5次硬币,只有第5次(就是第1次成功)正面朝上的概率是多大。你表白你的暗恋对象,你希望知道要表白3次,心仪对象答应和你手牵手的概率多大(第一次成功之后就没有后续了)。

从中可以看出,几何分布与二项分布只有最后一点,也就是解决问题的目的不同。

几何分布如何计算概率?

计算公式如下:

P ( x ) = ( 1 − p ) x − 1 p P(x)=(1-p)^{x-1}p P(x)=(1p)x1p,其中 p p p为每次成功的概率,即为了在第 x x x尝试后取得第1次成功,首先你要失败 x − 1 x-1 x1次。

假如在表白之前,你计算出即使你尝试表白3次,在最后1次成功的概率还是小于50%,还没有抛硬币的概率高,那你就要考虑换个追求对象;或者首先提升下自己,提高自己每一次表白的概率,比如,下班后晚上去做个头发呀😝😝

几何分布的期望与标准差

期望: E ( x ) = 1 / p E(x)=1/p E(x)=1/p

标准差: σ ( x ) = ( 1 − p ) p 2 \sigma(x)=(1-p)p^2 σ(x)=(1p)p2

知道这个期望有啥用呢?

假如你每次表白的成功概率是60%,同时你也符合几何分布的特点,期望: E ( x ) = 1 / p = 1 / 0.6 = 1.67 E(x)=1/p=1/0.6=1.67 E(x)=1/p=1/0.6=1.67,这意味着什么?意味着极有可能一次成功不了😂

但是,你可以期望自己表白1.67次(约等于2次)会成功,这是不是让你信心倍增,起码你不需要努力上100次才能成功,2次还是能做到的,有必要尝试下。

泊松分布

还是同样的套路,从以下几个方面入手:

1.泊松分布有啥用? 2.如何判断是不是泊松分布? 3.泊松分布如何计算概率?

泊松分布有啥用?

如果你想知道某个时间范围内,发生某件事情 x x x次的概率是多大。这时候就可以用泊松分布轻松搞定。比如一天内中奖的次数,一个月内某机器损坏的次数等。

*知道这些事情的概率有啥用呢?*当然是根据概率的大小来做出决策了。

比如,你搞了个抽奖活动,最后算出来一天内中奖10次的概率都超过了90%,然后你顺便算了下期望,再和你的活动成本比一下,发现要赔不少钱,那这个活动就别瞎搞了。

泊松分布的形状会随着平均值的不同而有所变化,无论是一周内多少人能赢得彩票,还是每分钟有多少人会打电话到呼叫中心,泊松分布都可以告诉我们它们的概率。

在这里插入图片描述

如何判断是不是泊松分布?

  • 事件是独立事件

对于事件 A A A与事件 B B B,如果 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),则事件 A A A与事件 B B B独立。类似于抽奖这类的就是独立事件。

  • 在任意相同的时间范围内,事件发的概率相同

例如,1天内中奖概率,与第2天内中奖概率相同。

  • 你想知道某个时间范围内,发生某件事情 x x x次的概率是多大

例如,你搞了个促销抽奖活动,想知道一天内10人中奖的概率。

泊松分布如何计算概率?

计算公式如下:

P ( x ) = u x e − u x ! P(x)=\frac{u^xe^{-u}}{x!} P(x)=x!uxeu,其中 x x x代表事件发生次数(例如10个人中奖), u u u代表给定时间范围内事件发生的平均次数(例如你搞的抽奖活动1天平均中奖人数是5人)。

例如,你搞了个促销抽奖活动,只知道1天内中奖的平均个数为5个,你想知道1天内恰巧中奖次数为7的概率是多少?

此时 x = 7 , u = 5 x=7,u=5 x=7u=5(区间内发生的平均次数),代入公式求出概率为10.44%。

泊松分布的期望与标准差

期望: E ( x ) = u E(x)=u E(x)=u

标准差: σ ( x ) = u \sigma(x)=u σ(x)=u

正态分布

上述分布都是离散概率分布,当随机变量是连续型时,情况就完全不一样了。因为离散概率的本质是求x取某个特定值的概率,而连续随机变量不行,它的取值是可以无限分割的,它取某个值时概率近似于0。连续变量是随机变量在某个区间内取值的概率,此时的概率函数叫做概率密度函数。

正态概率分布(The Normal Distribution),也叫高斯分布(Gaussian Distribution),是连续型随机变量中最重要的分布。世界上绝大部分的分布都属于正态分布,人的身高体重、考试成绩、降雨量等都近似服从。

为什么叫正太分布,我也不理解,因为英文单词“Normal”意思是“常见的,典型的”,不应该叫常态分布么😂😹(湾湾好像就是这么翻译的😶😶)

正态分布如同一条钟形曲线。中间高,两边低,左右对称。想象身高体重、考试成绩,是否都呈现这一类分布态势:大部分数据集中在某处,小部分往两端倾斜。

正太概率密度函数为:

f ( x ; μ , σ ) = 1 σ 2 π e − ( x − μ ) 2 / 2 σ 2 (2) f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2} \tag{2} f(x;μ,σ)=σ2π 1e(xμ)2/2σ2(2)

其中, μ \mu μ代表均值, σ \sigma σ代表标准差,不同的取值将会形成不同形状的正态分布。均值决定分布的左右偏移,标准差决定分布曲线的宽度和平坦,值越大曲线越平坦。如下图所示,正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。这条经验法则可以帮助我们快速计算数据的大体分布。

在这里插入图片描述

当均值 μ = 0 \mu=0 μ=0,标准差 σ = 1 \sigma=1 σ=1时,正态分布被叫做标准正态分布。它的随机变量用 z z z表示,它是统计推理的基础。并可进一步简化公式:

f ( z ) = 1 2 π e − z 2 / 2 f(z)=\frac{1}{\sqrt{2\pi}}e^{-z^2/2} f(z)=2π

  • 9
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值