1.2 Probability theory

Probability distribution->discrete variable
Probability density->continuous variable

何为先验概率(Prior probability)、后验(Posterior probability)? 是以事件(Event)发生的先后顺序为依据的。

  • 1.2.1 Probability density

概率密度是相对于连续函数来说的,离散数据的概率分布可以认为是概率密度在离散点在邻域范围内的积分值。
概率密度同样满足sum rule和product rule。
这里写图片描述
如果x=g(y)是一个非线性变换,那么随机变量x和y的概率密度极值点是不同的。如果是线性变换,那么两者的极值点是相同的,因为x对y的导数为一常量。存在如下关系。
这里写图片描述

  • 1.2.2 Expectation and Covariance

均值的定义:
这里写图片描述
多变量的均值:
这里写图片描述

  • 1.2.3 Bayesian probability

频率学派和贝叶斯学派的区别:
频率学派仅仅通过观察到的数据来得到问题的解,且是一个固定(deterministic)的值;而贝叶斯学派并不认为问题的解是固定不变的,而是在一定的变化范围内(即取得问题的解符合一定的概率),这主要是因为由于加入了先验知识后,对频率学派中的固定的值产生了影响。
这里写图片描述
这里写图片描述
因此,贝叶斯的方法更具有容错性,同时,容错性带来的问题是:对于置信度比较高的数据,采用较高容错度的贝叶斯方法取得的精度并没有频数派的方法高。因此,两种方法大战了几十年,双方各有利弊。
这里写图片描述

  • 1.2.4 The Gaussian distribution

The issue of bias in maximum likelihood estimation 由于对方差的欠估计(under-estimated),会使得最大似然估计在样本较少的情况下,对高斯分布参数的估计并不准确,如(1.57)(1.58)所示,ML的均值是Gaussian均值的无偏估计,而ML的方差估计偏小,这正也是产生overfitting的原因。但是,随着样本数目的增多,而ML的方差估计会趋于Gaussian的方差,bias的现象会减弱。
这里写图片描述
这里写图片描述

  • 1.2.5 Curve fitting re-visited

Curve fitting的最大似然和贝叶斯最大后验估计的解决方法。两者的区别和联系及两者的最终的目标函数与curve fitting的目标函数和加约束的curve fitting的目标函数之间的联系。

最大似然的目标函数:
这里写图片描述
最大后验概率的目标函数:
这里写图片描述

  • 1.2.6 Bayesian curve fitting

这里写图片描述
这里写图片描述
通过最大似然估计(1.6.1)和最大后验概率估计(1.6.7)得到的w,虽然估计的方法不同,但两者得到的仍是w的点估计,并没有体现出频数派和贝叶斯学派的本质区别。
这里写图片描述
这里写图片描述
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值