机器学习中的概率统计思考套路

概率统计或许是机器学习最重要的数学基础了,在复习/梳理相关知识点的时候,应该有一个框架/脉络,或者称之为套路。

两个学派

不同的人对概率有着不同的理解,主要分为频率学派和贝叶斯学派,两派的核心区别在于对数据分布中的参数的认识不同。
比如,我们的数据X来自于分布p(x|theta), 那么theta是个什么东西呢?
频率学派认为,theta是个const, 经典的估计方法是MLE。
贝叶斯学派认为,theta是个r.v.,既然theta是个r.v., 那么theta自然也有其分布,即prior p(theta). 贝叶斯学派把posterior与prior通过likelihood联系起来(贝叶斯公式),经典的估计方法是MAP.
需要说明的是,MAP不算是真正意义上的贝叶斯估计,因为真正的贝叶斯公式是真的要去算posterior的,其难点在于贝叶斯公式的分母中的积分难以得到解析解,所以要用数值方法(MenteCarloMethod).
为啥贝叶斯估计执着于求posterior呢?因为有了posterior就可以把已知数据X与新数据x之间的关系通过theta联系起来~
总之,贝叶斯学派主要是在求积分,产生了概率图模型;频率学派本质上是个优化问题(model - loss function - algo),产生了各种统计学习方法。

高斯分布

一维gaussion dist 的 pdf 属于高中内容, 高维gaussion dist 的 pdf 可以类似的写出来(指数上的数字其实是马氏距离 – 马距和欧距的关系:当协方差矩阵为单位阵时,二者相等)
拿频率学派的MLE来估计X~N(mu, var):
估计mu_MLE:
logp(x|theta)对mu求偏导 --> mu_MLE (无偏)
估计var_MLE:
logp(x|theta)对std求偏导 --> var_MLE (有偏) (可推导,属于考研数学内容) 有偏: 估计的var偏小了
多维gaussion dist:
pdf中的指数项其实是马氏距离,取不同值时对应不同的同心椭圆,轴的方向是协方差矩阵的特征向量的方向,轴长与(x-mu)在特征向量上的投影长度有关。

– 未完待续

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值