统计学习方法课后题1

最新推荐文章于 2022-10-19 17:41:19 发布

zhouxiaozhu123

最新推荐文章于 2022-10-19 17:41:19 发布

阅读量266

点赞数 2

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhouxiaozhu123/article/details/80167535

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一章
这里写图片描述
统计学习方法三要素：模型、策略、算法。
模型

概率模型
伯努利模型：定义在取值为0,1的随机变量上的概率分布（条件概率分布）
0-1分布
$p(x) = \theta^x(1-\theta)^{1-x}$ ,随机变量 $x$ 只取0,1两个值
二项分布
$p_n(k)=C_n^k\theta^k(1-\theta)^{n-k}$ ,表示 $x=1$ 发生 $k$ 次的概率, $\theta$ 表示每一次实验 $x=1$ 的概率
经验风险：
$R e m p = 1 N \sum i = 1 N (L (x i, f (x i)))$ $R_{emp}=\frac{1}{N}\sum_{i=1}^N(L(x_i,f(x_i)))$
结构风险：
$R s r m = 1 N \sum i = 1 N (L (x i, f (x i))) + λ J (f)$ $R_{srm}=\frac{1}{N}\sum_{i=1}^N(L(x_i,f(x_i)))+\lambda J(f)$

策略

极大似然：经验风险最小化。
模型为条件概率分布，损失函数为对数损失函数时，经验风险最小化等价于极大似然估计。
贝叶斯估计：结构风险最小化。
模型为条件概率分布，损失函数为对数损失函数，模型复杂度由模型先验概率表示时，结构风险最小化等价于最大后验概率估计。

算法

极大似然估计：最大化似然函数，求取能使似然函数最大的值
贝叶斯估计：最大后验概率估计，求取能使其后验分布最大的值

假设随机变量 $A_i$ （独立同分布）表示第 $i$ 次试验：

p (A_{i} = 1) = θ, p (A_{i} = 0) = 1 - θ

$p(A_i=1) = \theta , p(A_i=0) = 1-\theta$

极大似然估计
似然函数： $L(\theta)= \prod_{i=1}^{n}p(A_i)=\theta^k(1-\theta)^{n-k}$

$arg max θ l o g (L (θ)) = arg max θ l o g (θ k (1 - θ) n - k) = arg max θ (k log θ + (n - k) log (1 - θ)) (53) (54)$ $\begin{align} \mathop{\arg\max}_{\theta} log(L(\theta)) &= \mathop{\arg\max}_{\theta} log(\theta^k(1-\theta)^{n-k}) \\ &=\mathop{\arg\max}_{\theta} (k\log\theta + (n-k)\log(1-\theta)) \\ \end{align}$
对 $\theta$ 求偏导，令等式为0，可得，
$k θ - n - k 1 - θ = 0$ $\frac{k}{\theta}-\frac{n-k}{1-\theta}=0$
解得 $\theta = \frac{k}{n}$
贝叶斯估计
最大后验概率估计 $p(\theta|A_1,A_2...A_n)$ , $\theta$ 为随机变量， $p(\theta)$ 为模型先验概率服从β分布 $β(θ;a,b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{C}$ , $C$ 为常数，β分布是伯努利分布的共轭先验分布

$\begin{aligned} (55) & p (θ | A_{1}, A_{2} . . . A_{n}) & = \frac{p (A_{1}, A_{2} . . . A_{n} | θ) p (θ)}{p (A_{1}, A_{2} . . . A_{n})} \\ (56) & \propto p (A_{1}, A_{2} . . . A_{n} | θ) p (θ) \\ (57) & = \prod_{i = 1}^{n} p (A_{i} | θ) p (θ) \\ (58) & = θ^{k} (1 - θ)^{n - k} θ^{a - 1} (1 - θ)^{b - 1} \\ (59) & = θ^{a - 1 + k} (1 - θ ）^{b - 1 + n - k} \end{aligned}$ $\begin{align}p(\theta|A_1,A_2...A_n)&=\frac{p(A_1,A_2...A_n|\theta)p(\theta)}{p(A_1,A_2...A_n)} \\ & \propto p(A_1,A_2...A_n|\theta)p(\theta)\\ &=\prod_{i=1}^{n}p(A_i|\theta)p(\theta)\\ &= \theta^k(1-\theta)^{n-k}\theta^{a-1}(1-\theta)^{b-1}\\ &=\theta^{a-1+k}(1-\theta）^{b-1+n-k}\\ \end{align}$

故

arg max θ p (θ | A 1, A 2 . . . A n) \Leftrightarrow arg max θ θ a - 1 + k (1 - θ ） b - 1 + n - k

$\mathop{\arg\max}_\theta p(\theta|A_1,A_2...A_n)\Leftrightarrow\mathop{\arg\max}_\theta \theta^{a-1+k}(1-\theta）^{b-1+n-k}$
对等式右边取对数，求偏导，令等式为0，可得

θ = a - 1 + k n + ( a - 1 ) + ( b - 1 )

$\theta = \frac{a-1+k}{n+(a-1)+(b-1)}$
其中，

a,b a , b $a,b$ 的取值

这里写图片描述

β β $\beta$ 分布概率密度函数

这里写图片描述

条件概率分布： $P(Y|X)$
损失函数： $L(Y,P(Y|X))=-\log P(Y|X)$
似然函数： $L(\theta) = \prod_{i=1}^np(y_i|x_i,\theta)$
经验风险最小化：
$min θ R e m p = min θ 1 n \sum i = 1 n L (y i, p (y i | x i, θ)) = min θ 1 n \sum i = 1 n (- l o g (p (y i | x i, θ)) = min θ - 1 n \sum i = 1 n l o g p (y i | x i, θ) \Leftrightarrow max θ 1 n \sum i = 1 n l o g p (y i | x i, θ) = max θ 1 n l o g (\prod i = 1 n p (y i | x i, θ)) \Leftrightarrow max θ L (θ) (60) (61) (62) (63) (64) (65)$ $\begin{align} \min_\theta R_{emp} &= \min_\theta \frac{1}{n}\sum_{i=1}^nL(y_i, p(y_i|x_i,\theta))\\ &=\min_\theta \frac{1}{n}\sum_{i=1}^n(-log(p(y_i|x_i,\theta)) \\ &=\min_\theta -\frac{1}{n}\sum_{i=1}^nlogp(y_i|x_i,\theta)\\ &\Leftrightarrow \max_\theta \frac{1}{n}\sum_{i=1}^nlogp(y_i|x_i,\theta)\\ &=\max_\theta \frac{1}{n}log(\prod_{i=1}^{n}p(y_i|x_i,\theta))\\ &\Leftrightarrow \max_\theta L(\theta) \end{align}$

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。