统计中的门派之争

摘要

统计学是通过搜索、整理、分析、描述数据等手段,以推断目标对象的本质,是人工智能技术的基础理论之一,对统计学的知识背景进行了解有助于我们深入理解人工智能算法背后的哲学思考以及基础理论。

一、前言

爱因斯坦和波尔的世纪论战燃爆了整个20世纪初的物理学界。争论促进了物理学的发展,吸引了诸多人的关注,很多学者和吃瓜群众更是对争论乐此不疲,津津乐道。

图片

同样,在统计学领域也不乏论战和门派之争。经典学派(又称频率学派、抽样学派)与贝叶斯学派是当今数理统计学的两大学派,各自的理论在众多领域中都得到广泛应用。

经典学派是以奈曼为代表的学派, 美国加州大学伯克利分校是她的基地, 所以在一些论文中称经典学派的专家为“ 伯克利们” 。这一学派在20世纪30年代形成, 目前是影响最大的学派。

 

贝叶斯学派的奠基人是贝叶斯, 但形成学派是50年代中叶后期的事, 经意大利的菲纳特( Finetti )、英国的杰弗莱( Jeffreys)、林德莱(Lindley) 等人的努力, 形成了系统的方法和学说, 日益受到人们的重视, 影响正在逐渐扩大, 并渗透到非统计的领域, 1993年召开了第一届国际贝叶斯分析大会。

 

二、世界观差异

经典学派主张客观概率,即概率是客观的, 是事物的一种属性。 经典学派认为概率就是长期试验中频率稳定性所反映的真值, 坚持用频率的现象去解释概率所陈述的命题, 所以又称为频率学派。

 

它人们对事物认识的不确定性也应该用频率的稳定性来解释。例如,对置信区间的置信概率的理解就是重复使用多次, 置信区间盖住真实参数发生的频率与置信概率相近。

 

贝叶斯学派主张主观概率,认为概率不能只用频率的稳定性来解释和理解,概率也反映了人们对某些事物认识的不确定性的程度,可以由人的经验、知识来作出判断, 不需要藉助频率的稳定性, 例如掷一枚硬币, 正面朝上还是反面朝上, 机会各为1/2, 这并不需要做成千上百次试验, 而从质量的均匀性就能判断。 

 

例如,已知一组样本X,对于样本分布F(X,θ),我们要对其中的未知参数θ进行估计,让我们来看看频率学派与贝叶斯学派分别是如何做的。

 

图片

Fisher

 

频率学派:

 

频率学派认为,对于一批样本,其分布F(X,θ)是确定的,也即是θ是确定的,只不过θ未知。为什么会有这样的想法?

 

这就要从频率学派的基本宗旨来看了,频率学派认为概率即是频率,某次得到的样本X只是无数次可能的试验结果的一个具体实现,样本中未出现的结果不是不可能出现,只是这次抽样没有出现而已,因此综合考虑已抽取到的样本X以及未被抽取、实现的结果,可以认为总体分布是确定的,不过θ未知,而样本来自于总体,故其样本分布F(X,θ)也同样的特点。基于此,就可以使用估计方法去推断θ。

 

贝叶斯学派:

 

贝叶斯学派否定了概率即频率的观点,并且反对把样本X放到“无限多可能值之一”背景下去考虑,既然只得到了样本X,那么就只能依靠它去做推断,而不能考虑那些有可能出现而未出现的结果。

 

与此同时,贝叶斯学派引入了主观概率的概念,认为一个事件在发生之前,人们应该对它是有所认知的,即F(X,θ)中的θ不是固定的,而是一个随机变量,并且服从分布H(θ),该分布称为“先验分布”(指抽样之前得到的分布),当得到样本X后,我们对θ的分布则有了新的认识,此时H(θ)有了更新,这样就得到了“后验分布”(指抽样之后得到的分布),此时可以再对θ做点估计、区间估计,此时的估计不再依赖样本,完全只依赖θ的后验分布了。

 

图片

贝叶斯

 

 

三、频率学派对贝叶斯学派的批评

 

频率学派对贝叶斯学派的批评主要集中在主观概率及与之相关的先验分布的确定问题上。按频率学派的观点,一个事件的概率可以用大量重复试验之下事件出现的频率来解释,这种解释不取决于主体的认识。

 

频率学派认为主观概率不仅难以捉摸,而且与认识主体有关,没有客观性,因而也就没有科学性,这是不可接受的。

 

针对频率学派的批评,贝叶斯学派做出了以下回应:

 

1)主观概率事实上是人们常用的概念。例如人们常说:”这个事儿十有八九能成”,这就是人们的一个主观概率,能做出这样的推测人们肯定是考虑了一些因素的(比如考虑了做事儿的人,做事的方法等),这是有一定道理的。

 

2)在涉及采取行动并承担后果的问题上,每个人了解的情况不同,对问题所具有的知识也不同,他们采取的最佳行动方案也会不同,在这种情况下,不同的人有不同的先验分布是很正常的,要求所谓的“客观性”反倒没有意义了。

 

 

四、贝叶斯学派对频率学派的批评

 

1)关于概率的频率解释观点。许多问题是没法做重复性试验、是一次性的,严格相同甚至大致相同的条件下的重复事实上是不可能的,比如地震观测,因此在这种条件下统计概念和方法的频率解释完全没有现实意义。

 

2)频率学派基于概率的频率解释,其所导出的方法(点估计、区间估计、假设检验等)的精度和可靠度也只是大量重复下的平均值,这是在抽样之前就已经确定的(也就是前文所说的F(X,θ)是确定的),这种不顾实际的样本值而在事前就规定的精度和可靠度是不合理的,而且往往是实际情况大相庭径。

 

直观上人们更倾向于接受的是:统计推断的精度和可靠性如何,与试验结果(样本)有关。

 

四、结束语

 

尽管贝叶斯学派和频率学派的部分观点受到质疑,但是两大学派如今仍然发挥着比较重要的作用,对实际应用中的一些问题,两种学派的方法都能给出比较准确的解决方案,因此对于我们应用者来说,针对不同的应用场景,使用的合适的方法才是主要的。

 

图片

首席安全官+是一个聚焦“云计算、大数据、人工智能”等高技术领域,致力网络空间安全发展与战略研究,发布网络安全创新理念、先进架构、前沿技术、产业趋势和资本动态的平台,努力打造“有特色、高水平、国际化”的网络安全思想高地。

 

微信二维码

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网络空间发展与战略研究中心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值