PRML Chapter01 练习题Exercise

PRML Chapter01 练习题Exercise

1.1

在这里插入图片描述

我们要证明我们可以根据这个式子得到我们的 w w w的最优解,其实也就是最小化我们的平方损失函数

将1.1的多项式函数代入1.2的平方损失函数中,然后再对我们的 w w w求导,最小化我们的函数,可得
∑ n = 1 N ( ∑ j = 0 M w j x n j − t n ) x n i = 0 \sum_{n=1}^{N}\left(\sum_{j=0}^{M} w_{j} x_{n}^{j}-t_{n}\right) x_{n}^{i}=0 n=1N(j=0Mwjxnjtn)xni=0
然后我们再换一下位置就可以得到我们的结果

1.2

第二题就是用正则化的损失函数写成上述1.122的形式,其实很简单,我们只需要将我们第一题 A i j A_{ij} Aij替换成 A i j + λ I i j A_{ij}+\lambda I_{ij} Aij+λIij,也就是对其我们加了一个单位矩阵,就是上面的式子,一样的方法证明,很简单。

1.3

1.3是一个简单用了贝叶斯概率的问题

首先求拿到苹果的概率
p ( a ) = p ( a ∣ r ) p ( r ) + p ( a ∣ b ) p ( b ) + p ( a ∣ g ) p ( g ) = 3 10 × 0.2 + 1 2 × 0.2 + 3 10 × 0.6 = 0.34 p(a)=p(a|r)p(r)+p(a|b)p(b)+p(a|g)p(g)\\ =\frac{3}{10}×0.2 + \frac{1}{2}×0.2 + \frac{3}{10}×0.6=0.34 p(a)=p(ar)p(r)+p(ab)p(b)+p(ag)p(g)=103×0.2+21×0.2+103×0.6=0.34
第二个问题是求已知拿到的是橙子,求它来自于绿色盒子的概率,这个我们利用贝叶斯公式
p ( g ∣ o ) = p ( o ∣ g ) p ( g ) p ( o ) p ( o ) = p ( o ∣ r ) p ( r ) + p ( o ∣ b ) p ( b ) + p ( o ∣ g ) p ( g ) = 0.36 p(g|o)=\frac{p(o|g)p(g)}{p(o)}\\ p(o) =p(o|r)p(r)+p(o|b)p(b)+p(o|g)p(g)=0.36 p(go)=p(o)p(og)p(g)p(o)=p(or)p(r)+p(ob)p(b)+p(og)p(g)=0.36
所以我们可以得到我们的结果 p ( g ∣ o ) p(g|o) p(go)
p ( g ∣ o ) = 3 10 × 0.6 0.36 = 1 2 p(g|o) = \frac{3}{10} × \frac{0.6}{0.36} = \frac{1}{2} p(go)=103×0.360.6=21

1.5

E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] = E [ f ( x ) 2 − 2 f ( x ) E [ f ( x ) ] + E [ f ( x ) ] 2 ] = E [ f ( x ) 2 ] − 2 E [ f ( x ) ] E [ f ( x ) ] + E [ f ( x ) ] 2 = E [ f ( x ) 2 ] − E [ f ( x ) ] 2 \begin{aligned} \mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] &=\mathbb{E}\left[f(x)^{2}-2 f(x) \mathbb{E}[f(x)]+\mathbb{E}[f(x)]^{2}\right] \\ &=\mathbb{E}\left[f(x)^{2}\right]-2 \mathbb{E}[f(x)] \mathbb{E}[f(x)]+\mathbb{E}[f(x)]^{2} \\ &=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2} \end{aligned} E[(f(x)E[f(x)])2]=E[f(x)22f(x)E[f(x)]+E[f(x)]2]=E[f(x)2]2E[f(x)]E[f(x)]+E[f(x)]2=E[f(x)2]E[f(x)]2

1.6

cov ⁡ [ x , y ] = E [ x y ] − E [ x ] E [ y ] \operatorname{cov}[x, y]=\mathbb{E}[x y]-\mathbb{E}[x] \mathbb{E}[y] cov[x,y]=E[xy]E[x]E[y]

因为我们知道x和y是独立的,所以 p ( x , y ) = p ( x ) p ( y ) p(x, y)=p(x) p(y) p(x,y)=p(x)p(y)
E [ x y ] = ∑ x ∑ y p ( x , y ) x y = ∑ x p ( x ) x ∑ y p ( y ) y = E [ x ] E [ y ] \begin{aligned} \mathbb{E}[x y] &=\sum_{x} \sum_{y} p(x, y) x y \\ &=\sum_{x} p(x) x \sum_{y} p(y) y \\ &=\mathbb{E}[x] \mathbb{E}[y] \end{aligned} E[xy]=xyp(x,y)xy=xp(x)xyp(y)y=E[x]E[y]
所以最后 c o v [ x , y ] = 0 cov[x,y]=0 cov[x,y]=0

一道题一道题做的有点麻烦,到后面我就跳过,做一些重点标注的题

1.10

因为x和z是独立的,所以 p ( x , z ) = p ( x ) p ( z ) p(x,z)=p(x)p(z) p(x,z)=p(x)p(z)
E [ x + z ] = ∫ ∫ ( x + z ) p ( x ) p ( z ) d x d z = ∫ x p ( x ) d x + ∫ z p ( z ) d z = E [ x ] + E [ z ] \begin{aligned} E[x+z]&=\int\int(x+z)p(x)p(z)dxdz \\ &=\int xp(x)dx + \int zp(z)dz\\ &=E[x]+E[z] \end{aligned} E[x+z]=(x+z)p(x)p(z)dxdz=xp(x)dx+zp(z)dz=E[x]+E[z]
由上述结论可以得
( x + z − E [ x + z ] ) 2 = ( x − E [ x ] ) 2 + ( z − E [ z ] ) 2 + 2 ( x − E [ x ] ) ( z − E [ z ] ) (x+z-E[x+z])^2=(x-E[x])^2+(z-E[z])^2+2(x-E[x])(z-E[z]) (x+zE[x+z])2=(xE[x])2+(zE[z])2+2(xE[x])(zE[z])
并且最后两项会被积分到0,因此
v a r [ x + z ] = ∫ ∫ ( x + z − E [ x + z ] ) 2 p ( x ) p ( z ) d x d z = ∫ ( x − E [ x ] ) 2 p ( x ) d x + ∫ ( z − E [ z ] ) 2 p ( z ) d z = v a r [ x ] + v a r [ z ] \begin{aligned} var[x+z] &=\int \int (x+z-E[x+z])^2p(x)p(z)dxdz\\ &=\int (x-E[x])^2p(x)dx+\int (z-E[z])^2p(z)dz\\ &=var[x]+var[z] \end{aligned} var[x+z]=(x+zE[x+z])2p(x)p(z)dxdz=(xE[x])2p(x)dx+(zE[z])2p(z)dz=var[x]+var[z]

1.15

在这里插入图片描述

由于题目有点长,这里为了方便理解,翻译一下

在这个练习和下⼀个练习中,我们研究多项式函数的独立参数的数量与多项式阶数M以及输⼊空间维度D之间的关系。⾸先,我们写下D维空间多项式的M阶项,形式为
∑ i 1 = 1 D ∑ i 2 = 1 D ⋯ ∑ i M = 1 D w i 1 , i 2 , … , i M x i 1 x i 2 … x i M \sum_{i_1=1}^D \sum_{i_2=1}^D \dots \sum_{i_M=1}^D w_{i_1,i_2,\ldots,i_M}x_{i_1}x_{i_2}\ldots x_{i_M} i1=1Di2=1DiM=1Dwi1,i2,,iMxi1xi2xiM
系数 w i 1 , i 2 , … , i M w_{i_1,i_2,\ldots,i_M} wi1,i2,,iM D M D^M DM个元素组成,但是独⽴参数的数量远小于此,因为因子 x i 1 x i 2 … x i M x_{i_1}x_{i_2}\ldots x_{i_M} xi1xi2xiM有很多互换对称性。首先证明系数的冗余性可以通过把M阶项写成下面的形式的方法消除
∑ i 1 = 1 D ∑ i 2 = 1 i 1 ⋯ ∑ i M = 1 i M − 1 w ~ i 1 , i 2 , … , i M x i 1 x i 2 … x i M \sum_{i_1=1}^D \sum_{i_2=1}^{i_1} \dots \sum_{i_M=1}^{i_{M-1}} \tilde w_{i_1,i_2,\ldots,i_M}x_{i_1}x_{i_2}\ldots x_{i_M} i1=1Di2=1i1iM=1iM1w~i1,i2,,iMxi1xi2xiM
使用这个结果证明,M阶项的独立参数的数量 n ( D ∣ M ) n(D|M) n(DM)满足下面的递归关系
n ( D , M ) = ∑ i = 1 D n ( i , M − 1 ) n(D,M)=\sum^D_{i=1}n(i,M-1) n(D,M)=i=1Dn(i,M1)
接下来,使用归纳法证明下面结果成立
∑ i = 1 D ( i + M − 2 ) ! ( i − 1 ) ! ( M − 1 ) ! = ( D + M − 1 ) ! ( D − 1 ) ! M ! \sum^D_{i=1}\frac{(i+M-2)!}{(i-1)!(M-1)!}=\frac{(D+M-1)!}{(D-1)!M!} i=1D(i1)!(M1)!(i+M2)!=(D1)!M!(D+M1)!
可以这样证明:首先证明 D = 1 D=1 D=1的情况下,对于任意的M,这个结果成立。证明的过程中会用 0 ! = 1 0!=1 0!=1。然后假设这个结论对于D维成立,证明它对D+1维也成立即可。最后,使用之后的两个结果,以及数学归纳法,证明
n ( D , M ) = ( D + M − 1 ) ! ( D − 1 ) ! M ! n(D,M)=\frac{(D+M-1)!}{(D-1)!M!} n(D,M)=(D1)!M!(D+M1)!
可以这样证明:首先证明这个结果对于 M = 2 M = 2 M=2且任意的 D ≥ 1 D \ge 1 D1成立,这可以通过对比联系1.14的
结果得出。然后使⽤公式 ( 1.135 ) (1.135) 1.135和公式 ( 1.136 ) (1.136) 1.136,证明,如果结果对于 M − 1 M - 1 M1阶成⽴,那么
它对于M阶也成成立

证明:

为了得到我们 1.135 1.135 1.135式子的结果,我们进行一个推导,独立参数的个数 n ( D , M ) n(D,M) n(D,M)可以写成
n ( D ∣ M ) = ∑ i 1 = 1 D ∑ i 2 = 1 i 1 ⋯ ∑ i M = 1 i M − 1 1 n(D|M)=\sum_{i_1=1}^D \sum_{i_2=1}^{i_1} \dots \sum_{i_M=1}^{i_{M-1}} 1 n(DM)=i1=1Di2=1i1iM=1iM11
一共有M项,并且这也可以写成
n ( D ∣ M ) = ∑ i 1 = 1 D { ∑ i 2 = 1 i 1 ⋯ ∑ i M = 1 i M − 1 1 } n(D|M)=\sum_{i_1=1}^D \{\sum_{i_2=1}^{i_1} \dots \sum_{i_M=1}^{i_{M-1}} 1\} n(DM)=i1=1D{i2=1i1iM=1iM11}
其中大括号中有 M − 1 M-1 M1项,并且为 n ( i 1 , M − 1 ) n(i_1,M-1) n(i1,M1),所以我们就可以写成
n ( D , M ) = ∑ i = 1 D n ( i , M − 1 ) n(D,M)=\sum^D_{i=1}n(i,M-1) n(D,M)=i=1Dn(i,M1)
这就推导出了我们的第 1.135 1.135 1.135的式子

接着我们需要推导 1.136 1.136 1.136的式子,我们需要用我们数学归纳法
∑ i = 1 D ( i + M − 2 ) ! ( i − 1 ) ! ( M − 1 ) ! = ( D + M − 1 ) ! ( D − 1 ) ! M ! \sum^D_{i=1}\frac{(i+M-2)!}{(i-1)!(M-1)!}=\frac{(D+M-1)!}{(D-1)!M!} i=1D(i1)!(M1)!(i+M2)!=(D1)!M!(D+M1)!
首先当 D = 1 D=1 D=1时,左边和右边都为1,这个式子是成立的,这里我们用了 0 ! = 1 0!=1 0!=1

接着利用数学归纳法的思想,我们假设我们的式子在任意的D都成立,然后证明他在D+1的情况也是成立的,那么这个式子就是成立的。
∑ i = 1 D + 1 ( i + M − 2 ) ! ( i − 1 ) ! ( M − 1 ) ! = ( D + M − 1 ) ! ( D − 1 ) ! M ! + ( D + M − 1 ) ! D ! ( M − 1 ) ! = ( D + M − 1 ) ! D + ( D + M − 1 ) ! M D ! M ! = ( D + M ) ! D ! M ! \begin{aligned} \sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !} &=\frac{(D+M-1) !}{(D-1) ! M !}+\frac{(D+M-1) !}{D !(M-1) !} \\ &=\frac{(D+M-1) ! D+(D+M-1) ! M}{D ! M !} \\ &=\frac{(D+M) !}{D ! M !} \end{aligned} i=1D+1(i1)!(M1)!(i+M2)!=(D1)!M!(D+M1)!+D!(M1)!(D+M1)!=D!M!(D+M1)!D+(D+M1)!M=D!M!(D+M)!
所以这个式子当对 D + 1 D+1 D+1也是满足的,所以,这个式子成立

最后我们来证明 1.137 1.137 1.137的式子,我们也是用数学归纳法来证明,首先证明当 M = 2 M=2 M=2时成立

M = 2 M=2 M=2时,我们可以得到,这个是成立的
n ( D , 2 ) = D ( D + 1 ) 2 n(D,2)=\frac{D(D+1)}{2} n(D,2)=2D(D+1)
然后我们假设,对于 M − 1 M-1 M1来说,这个式子
n ( D , M − 1 ) = ( D + M − 2 ) ! ( D − 1 ) ! ( M − 1 ) ! n(D, M-1)=\frac{(D+M-2) !}{(D-1) !(M-1) !} n(D,M1)=(D1)!(M1)!(D+M2)!
把这个式子带入我们前面的 1.135 1.135 1.135的右边,我们可以得到
n ( D , M ) = ∑ i = 1 D ( i + M − 2 ) ! ( i − 1 ) ! ( M − 1 ) ! n(D, M)=\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !} n(D,M)=i=1D(i1)!(M1)!(i+M2)!
然后我们再将前面的 1.136 1.136 1.136带入,我们就可以得到我们的结果
n ( D , M ) = ( D + M − 1 ) ! ( D − 1 ) ! M ! n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !} n(D,M)=(D1)!M!(D+M1)!
因此,对于所有的多项式都是成立。

1.16

1.16和1.15是同一类型的题目,这道题他是想证明所有阶数小于等于 M M M阶的所有项的独立参数的总数 N ( D , M ) N(D,M) N(D,M),利用前面的结果,我们来证明
N ( D , M ) = ∑ m = 0 M n ( D , m ) = ( D + M ) ! D ! M ! N(D,M)=\sum^M_{m=0}n(D,m)=\frac{(D+M)!}{D!M!} N(D,M)=m=0Mn(D,m)=D!M!(D+M)!
其中 n ( D , m ) n(D,m) n(D,m)是m阶项的独立参数的数量

首先当M=0的时候这个式子是明显成立的,我们假设当 M M M的时候式子成立,我们需要证明当 M + 1 M+1 M+1时也成立
N ( D , M + 1 ) = ∑ m = 0 M + 1 n ( D , m ) = ∑ m = 0 M n ( D , m ) + n ( D , M + 1 ) = ( D + M ) ! D ! M ! + ( D + M ) ! ( D − 1 ) ! ( M + 1 ) ! = ( D + M ) ! ( M + 1 ) + ( D + M ) ! D D ! ( M + 1 ) ! = ( D + M + 1 ) ! D ! ( M + 1 ) ! \begin{aligned} N(D,M+1)&=\sum^{M+1}_{m=0}n(D,m)\\ &=\sum^{M}_{m=0}n(D,m)+n(D,M+1)\\ &=\frac{(D+M)!}{D!M!}+\frac{(D+M) !}{(D-1) !(M+1)!}\\ &=\frac{(D+M)!(M+1)+(D+M)!D}{D!(M+1)!}\\ &=\frac{(D+M+1)!}{D!(M+1)!} \end{aligned} N(D,M+1)=m=0M+1n(D,m)=m=0Mn(D,m)+n(D,M+1)=D!M!(D+M)!+(D1)!(M+1)!(D+M)!=D!(M+1)!(D+M)!(M+1)+(D+M)!D=D!(M+1)!(D+M+1)!
所以对于M+1时等式也是成立的

M ≫ D M\gg D MD,在这之中,我们需要用到一个 S t i r l i n g Stirling Stirling近似,这个近似关系对于大的n是成立的。
n ! ≃ n n e − n n!\simeq n^ne^{-n} n!nnen

n ( D , M ) ≃ ( D + M ) D + M e − D − M D ! M M e − M = M D + M e − D D ! M M ( 1 + D M ) D + M ≃ M D e − D D ! ( 1 + D ( D + M ) M ) ≃ ( 1 + D ) e − D D ! M D \begin{aligned} n(D,M)&\simeq \frac{(D+M)^{D+M}e^{-D-M}}{D!M^Me^{-M}}\\ &= \frac{M^{D+M}e^{-D}}{D!M^M}(1+\frac{D}{M})^{D+M}\\ &\simeq \frac{M^De^{-D}}{D!}(1+\frac{D(D+M)}{M})\\ &\simeq \frac{(1+D)e^{-D}}{D!}M^D\\ \end{aligned} n(D,M)D!MMeM(D+M)D+MeDM=D!MMMD+MeD(1+MD)D+MD!MDeD(1+MD(D+M))D!(1+D)eDMD

当然,当 D ≫ M D \gg M DM也是相同的,通过计算得 N ( 10 , 3 ) = 286 N(10,3)=286 N(10,3)=286 N ( 100 , 3 ) = 176 , 851 N(100,3)=176,851 N(100,3)=176,851

1.18

在这里插入图片描述

对于这道题,首先作者给出了一个从笛卡尔坐标到极坐标系的公式,我们可以证明 1.143 , 1.144 1.143,1.144 1.143,1.144
S D = 2 π D / 2 Γ ( D / 2 ) S_D = \frac{2\pi^{D/2}}{\Gamma(D/2)} SD=Γ(D/2)2πD/2

V D = S D D V_D = \frac{S_D}{D} VD=DSD

D = np.linspace(0.1, 20, 1000)
Sd = 2 * np.pi * D / gamma(D / 2)
Vd = Sd / D
fig = plt.figure(figsize=(15, 5))

ax = fig.add_subplot(1, 2, 1)
ax.plot(D, Sd)
ax.set_title("Surface Area for unit sphere in $D$ dimensions")
ax.set_xlabel("$D$")
ax.set_ylabel("$S_D$")
ax.grid(alpha=0.6)

ax = fig.add_subplot(1, 2, 2)
ax.plot(D, Vd)
ax.set_title("Volume of a unit sphere in $D$ dimensions")
ax.set_xlabel("$D$")
ax.set_ylabel("$V_D$")
ax.grid(alpha=0.6)

在这里插入图片描述

1.27

这个题目需要我们证明对于不同q的情况下,我们的 y ( x ) y(x) y(x)的取值,当 q = 1 q=1 q=1时, y ( x ) y(x) y(x)取中位数,当 q q q趋近于0的时候,我们最小误差为条件众数

1.30

计算两个高斯分布的KL散度

从书本前面我可以得到 K L ( p ∣ ∣ q ) KL(p||q) KL(pq)
K L ( p ∥ q ) = − ∫ p ( x ) ln ⁡ q ( x ) d x + ∫ p ( x ) ln ⁡ p ( x ) d x \mathrm{KL}(p \| q)=-\int p(x) \ln q(x) \mathrm{d} x+\int p(x) \ln p(x) \mathrm{d} x KL(pq)=p(x)lnq(x)dx+p(x)lnp(x)dx
我们将 p p p q q q的高斯分布带入第一个积分,可以得到
− ∫ p ( x ) ln ⁡ q ( x ) d x = ∫ N ( x ∣ μ , σ 2 ) 1 2 ( ln ⁡ ( 2 π s 2 ) + ( x − m ) 2 s 2 ) d x = 1 2 ( ln ⁡ ( 2 π s 2 ) + 1 s 2 ∫ N ( x ∣ μ , σ 2 ) ( x 2 − 2 x m + m 2 ) d x ) = 1 2 ( ln ⁡ ( 2 π s 2 ) + σ 2 + μ 2 − 2 μ m + m 2 s 2 ) \begin{aligned} -& \int p(x) \ln q(x) \mathrm{d} x=\int \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \frac{1}{2}\left(\ln \left(2 \pi s^{2}\right)+\frac{(x-m)^{2}}{s^{2}}\right) \mathrm{d} x \\ &=\frac{1}{2}\left(\ln \left(2 \pi s^{2}\right)+\frac{1}{s^{2}} \int \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)\left(x^{2}-2 x m+m^{2}\right) \mathrm{d} x\right) \\ &=\frac{1}{2}\left(\ln \left(2 \pi s^{2}\right)+\frac{\sigma^{2}+\mu^{2}-2 \mu m+m^{2}}{s^{2}}\right) \end{aligned} p(x)lnq(x)dx=N(xμ,σ2)21(ln(2πs2)+s2(xm)2)dx=21(ln(2πs2)+s21N(xμ,σ2)(x22xm+m2)dx)=21(ln(2πs2)+s2σ2+μ22μm+m2)
对于我们的第二个积分,我们可以看出来,这是高斯函数的负微分熵,所以我们最后可以写成
K L ( p ∥ q ) = 1 2 ( ln ⁡ ( 2 π s 2 ) + σ 2 + μ 2 − 2 μ m + m 2 s 2 − 1 − ln ⁡ ( 2 π σ 2 ) ) = 1 2 ( ln ⁡ ( s 2 σ 2 ) + σ 2 + μ 2 − 2 μ m + m 2 s 2 − 1 ) \begin{aligned} \mathrm{KL}(p \| q) &=\frac{1}{2}\left(\ln \left(2 \pi s^{2}\right)+\frac{\sigma^{2}+\mu^{2}-2 \mu m+m^{2}}{s^{2}}-1-\ln \left(2 \pi \sigma^{2}\right)\right) \\ &=\frac{1}{2}\left(\ln \left(\frac{s^{2}}{\sigma^{2}}\right)+\frac{\sigma^{2}+\mu^{2}-2 \mu m+m^{2}}{s^{2}}-1\right) \end{aligned} KL(pq)=21(ln(2πs2)+s2σ2+μ22μm+m21ln(2πσ2))=21(ln(σ2s2)+s2σ2+μ22μm+m21)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

风信子的猫Redamancy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值