为啥$p(w|D)=p(y|X,w)$?

文章讨论了在监督学习中,给定参数w时,数据D出现的概率p(D|w)等于所有条件概率p(y_i|X_i,w)的乘积,假设数据点独立。解释了为何p(D|w)不表示包含X和w的联合概率,而是单独的y的条件概率乘积。
摘要由CSDN通过智能技术生成

为啥 p ( w ∣ D ) = p ( y ∣ X , w ) p(w|D)=p(y|X,w) p(wD)=p(yX,w)

p ( w ∣ X , y ) = p ( w ∣ D ) p(w|X,y)=p(w|D) p(wX,y)=p(wD), p ( w ∣ D ) = p ( D , w ) / p ( D ) p(w|D)=p(D,w)/p(D) p(wD)=p(D,w)/p(D)为啥 p ( D ∣ w ) = p ( y ∣ X , w ) p(D|w)=p(y|X,w) p(Dw)=p(yX,w)

对于表达式 p ( D ∣ w ) = p ( y ∣ X , w ) p(D|w) = p(y|X,w) p(Dw)=p(yX,w) 的疑问,这个等式在一定条件下是成立的。但是需要仔细说明。

当我们说 p ( D ∣ w ) p(D|w) p(Dw),我们指的是在给定参数 w w w 的情况下,数据 D D D 出现的概率。如果 D D D 代表了所有的数据,包括输入 X X X 和输出 y y y,那么 p ( D ∣ w ) p(D|w) p(Dw) 实际上是数据集中每个数据点 ( x i , y i ) (x_i, y_i) (xi,yi) 出现概率的乘积,假设它们是独立同分布的(i.i.d.)。

在这种情况下,如果我们将 D D D 看作一系列的 ( X , y ) (X, y) (X,y) 对,那么 p ( D ∣ w ) p(D|w) p(Dw)就是所有 p ( y i ∣ X i , w ) p(y_i|X_i,w) p(yiXi,w) 的乘积,即:

p ( D ∣ w ) = ∏ i = 1 n p ( y i ∣ X i , w ) p(D|w) = \prod_{i=1}^{n} p(y_i | X_i, w) p(Dw)=i=1np(yiXi,w)

这里 n n n 是数据点的数量。

因此,如果 D D D 是一组数据点, p ( D ∣ w ) p(D|w) p(Dw) 是这组数据的联合似然,它等于每个数据点的条件概率 p ( y ∣ X , w ) p(y|X,w) p(yX,w) 的乘积。

但是要注意,这个等式是在一定假设下成立的,特别是假设数据点是独立的。这通常适用于监督学习任务,如分类和回归,其中我们用模型 p ( y ∣ X , w ) p(y|X,w) p(yX,w) 去拟合数据 D D D。在这些情况下, p ( y ∣ X , w ) p(y|X,w) p(yX,w)是给定 w w w X X X y y y 的条件概率,而 p ( D ∣ w ) p(D|w) p(Dw) 是整个数据集 D D D 的似然函数,它是所有单个 p ( y ∣ X , w ) p(y|X,w) p(yX,w) 的乘积。

为啥 p ( D ∣ w ) = ∏ i = 0 n p ( y i ∣ X i , w ) p(D|w)=\prod_{i=0}^n p(y_i | X_i,w) p(Dw)=i=0np(yiXi,w)?为啥不是写成 p ( D ∣ w ) = ∏ i = 0 n p ( y i , X i , w ) p(D|w)=\prod_{i=0}^n p(y_i , X_i,w) p(Dw)=i=0np(yi,Xi,w)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值