为啥 p ( w ∣ D ) = p ( y ∣ X , w ) p(w|D)=p(y|X,w) p(w∣D)=p(y∣X,w)?
p ( w ∣ X , y ) = p ( w ∣ D ) p(w|X,y)=p(w|D) p(w∣X,y)=p(w∣D), p ( w ∣ D ) = p ( D , w ) / p ( D ) p(w|D)=p(D,w)/p(D) p(w∣D)=p(D,w)/p(D)为啥 p ( D ∣ w ) = p ( y ∣ X , w ) p(D|w)=p(y|X,w) p(D∣w)=p(y∣X,w)
对于表达式 p ( D ∣ w ) = p ( y ∣ X , w ) p(D|w) = p(y|X,w) p(D∣w)=p(y∣X,w) 的疑问,这个等式在一定条件下是成立的。但是需要仔细说明。
当我们说 p ( D ∣ w ) p(D|w) p(D∣w),我们指的是在给定参数 w w w 的情况下,数据 D D D 出现的概率。如果 D D D 代表了所有的数据,包括输入 X X X 和输出 y y y,那么 p ( D ∣ w ) p(D|w) p(D∣w) 实际上是数据集中每个数据点 ( x i , y i ) (x_i, y_i) (xi,yi) 出现概率的乘积,假设它们是独立同分布的(i.i.d.)。
在这种情况下,如果我们将 D D D 看作一系列的 ( X , y ) (X, y) (X,y) 对,那么 p ( D ∣ w ) p(D|w) p(D∣w)就是所有 p ( y i ∣ X i , w ) p(y_i|X_i,w) p(yi∣Xi,w) 的乘积,即:
p ( D ∣ w ) = ∏ i = 1 n p ( y i ∣ X i , w ) p(D|w) = \prod_{i=1}^{n} p(y_i | X_i, w) p(D∣w)=∏i=1np(yi∣Xi,w)
这里 n n n 是数据点的数量。
因此,如果 D D D 是一组数据点, p ( D ∣ w ) p(D|w) p(D∣w) 是这组数据的联合似然,它等于每个数据点的条件概率 p ( y ∣ X , w ) p(y|X,w) p(y∣X,w) 的乘积。
但是要注意,这个等式是在一定假设下成立的,特别是假设数据点是独立的。这通常适用于监督学习任务,如分类和回归,其中我们用模型 p ( y ∣ X , w ) p(y|X,w) p(y∣X,w) 去拟合数据 D D D。在这些情况下, p ( y ∣ X , w ) p(y|X,w) p(y∣X,w)是给定 w w w 和 X X X 下 y y y 的条件概率,而 p ( D ∣ w ) p(D|w) p(D∣w) 是整个数据集 D D D 的似然函数,它是所有单个 p ( y ∣ X , w ) p(y|X,w) p(y∣X,w) 的乘积。
为啥 p ( D ∣ w ) = ∏ i = 0 n p ( y i ∣ X i , w ) p(D|w)=\prod_{i=0}^n p(y_i | X_i,w) p(D∣w)=∏i=0np(yi∣Xi,w)?为啥不是写成 p ( D ∣ w ) = ∏ i = 0 n p ( y i , X i , w ) p(D|w)=\prod_{i=0}^n p(y_i , X_i,w) p(D∣w)=∏i=0np(yi,Xi,w)呢