吃瓜任务2

最新推荐文章于 2024-07-24 13:46:19 发布

侍伟

最新推荐文章于 2024-07-24 13:46:19 发布

阅读量960

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43595036/article/details/122471960

版权

1.一元线性回归

1.1 最小二乘估计

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
$\begin{aligned} E_{\left ( w,b \right ) } &=\sum_{i=1}^{m} \left ( y_i-f\left (x_i \right ) \right ) ^{2} \\ &=\sum_{i=1}^{m} \left ( y_i-\left ( wx_i + b\right ) \right ) ^{2} \\ &=\sum_{i=1}^{m} \left ( y_i-wx_i-b \right ) ^{2} \end{aligned}$

1.2 极大似然估计

用途：估计概率分布的参数值
方法：对于离散型（连续型）随机变量 $X$ ，假设其概率质量函数为 $P(x;\theta)$ (概率密度函数为 $p(x;\theta)$ ，其中 $\theta$ 为待估计的参数值（可以有多个）。现有 $x_1,x_2,x_3,\dots,x_n$ 是来自 $X$ 的 $n$ 个独立同分布的样本，它们的联合概率为
$L\left ( \theta \right ) =\prod_{i=1}^{n} P\left (x_i;\theta \right )$
其中 $x_1,x_2,x_3,\dots,x_n$ 是已知量， $\theta$ 是未知量，因此以上概率是一个关于 $\theta$ 的函数，称 $L\left ( \theta \right )$ 为样本的似然函数。极大似然估计的直观想法：使得观测样本出现概率最大的分布就是待求分布，即使得联合概率（似然函数） $L(\theta)$ 取到最大值的 $\theta^*$ 即为 $\theta$ 的估计值。

对于线性回归模型来说，可以假设其为以下模型：
$y=wx+b+\varepsilon$
其中 $\varepsilon$ 为不受控制的随机误差，通常假设其服从均值为0的正态分布 $\varepsilon\sim N(0,\sigma^2)$ ，所以 $\varepsilon$ 的概率密度函数为
$p\left ( \varepsilon \right ) =\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{\varepsilon^2 }{2\sigma^2 } \right )$
将 $\varepsilon$ 用 $y - (w x + b)$ 替换可得
$p\left ( y \right ) =\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y-(wx+b))^2 }{2\sigma^2 } \right )$
上式可以看作 $y\sim N(wx+b,\sigma^2)$ ，可以用极大似然估计来估计 $w$ 和 $b$ 的值，似然函数为
$\begin{aligned} L\left ( w,b \right ) &=\prod_{i=1}^{m} p\left (y_i \right ) \\ &=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y-(wx+b))^2 }{2\sigma^2 } \right ) \end{aligned}$
$\begin{aligned} \ln_{}{L\left ( w,b \right )} &=\sum_{i=1}^{m} \ln_{}{p\left (y_i \right )} \\ &=\sum_{i=1}^{m}\ln_{}{ \frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y_i-(wx_i+b))^2 }{2\sigma^2 } \right )}\\ &= \sum_{i=1}^{m}\ln_{}{\frac{1}{\sqrt{2\pi}\sigma }}+\sum_{i=1}^{m}\left(-\frac{(y_i-(wx_i+b))^2 }{2\sigma^2 } \right )\\ &=m\ln_{}{\frac{1}{\sqrt{2\pi}\sigma }}-\frac{1}{2\sigma ^2} \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2 \end{aligned}$
其中 $m,\sigma$ 均为常数，所以最大化 $\ln_{}{L\left ( w,b \right )}$ 等价于最小化 $\sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2$ ，
即
$\begin{aligned} \left ( w^*,b^* \right ) &=\arg \max_{\left ( w,b \right ) } \ln_{}{L\left ( w,b \right )}\\ &=\arg \min_{\left ( w,b \right ) } \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2 \end{aligned}$

1.3 求解 $w$ 和 $b$

求解 $w$ 和 $b$ 其本质上是一个多元函数求最值点的问题，更具体而言，是凸函数求最值点的问题。
推导思路：
1.证明 $E_{(w,b)}= \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2$ 是关于 $w$ 和 $b$ 的凸函数
2.用凸函数求最值的思路求解出 $w$ 和 $b$

1.4 机器学习三要素

模型：根据具体问题，确定假设空间
策略：根据评价标准，确定选取最优模型的策略（通常会产生出一个“损失函数”）
算法：求解损失函数，确定最优模型

2.多元线性回归

$\hat{w } ^*=\arg\min _{\hat{w } ^*}\left ( y - X\hat{w }\right ) ^T\left( y - X\hat{w }\right )$
求解 $\hat{w }$ 依然是多元函数求最值点的问题，同样也是凸函数求最值点的问题。
推导思路：
1.证明 $E_{\hat{w }}=\left ( y - X\hat{w }\right ) ^T\left( y - X\hat{w }\right )$ 是关于 $\hat{w }$ 的凸函数。
2.用凸函数求最值的思路求解出 $\hat{w }$

3.对数几率回归

3.1 极大似然估计

第一步：确定概率密度函数
已知离散型随机变量 $y\in \{0,1\}$ 取值为1和0的概率分别建模为
$p\left ( y=1|x \right ) =\frac{1}{1+e^{-\left (w^Tx+b \right )}} =\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}$
$p\left ( y=0|x \right ) =\frac{1}{1+e^{w^Tx+b}}$
令 $\beta=(w;b),\hat{x}=(x;1)$ ，则上式可简写为
$p\left ( y=1|\hat{x};\beta \right ) =\frac{e^{\beta^T\hat{x}}}{1+e^{\beta^T\hat{x}}}=p_1\left ( \hat{x};\beta \right )$
$p\left ( y=0|\hat{x};\beta \right ) =\frac{1}{1+e^{\beta^T\hat{x}}}=p_0\left ( \hat{x};\beta \right )$
由以上概率取值可推得随机变量 $y\in\{0,1\}$ 的概率质量函数为
$p\left ( y|\hat{x};\beta \right )=y\cdot p_1\left ( \hat{x};\beta \right ) +(1-y)\cdot p_0\left ( \hat{x};\beta \right )$
第二步：写出似然函数
$L\left ( \beta \right ) =\prod_{i=1}^{m} p\left ( y_i|\hat{x}_i;\beta \right )$
对数似然函数为
$\begin{aligned} \ell \left ( \beta \right ) &=\sum_{i=1}^{m} \ln_{}{\left ( y_i\cdot p_1\left ( \hat{x_i};\beta \right ) +(1-y_i)\cdot p_0\left ( \hat{x_i};\beta \right ) \right ) }\\ &=\sum_{i=1}^{m} \ln_{}{\left ( \frac{y_ie^{\beta^T\hat{x}_i}}{1+e^{\beta^T\hat{x}_i}}+\frac{1-y_i}{1+e^{\beta^T\hat{x}_i}} \right ) }\\ &=\sum_{i=1}^{m} \left ( \ln_{}{\left ( y_ie^{\beta^T\hat{x}_i}+1-y_i \right ) -\ln_{}{\left ( 1+e^{\beta^T\hat{x}_i} \right ) }} \right ) \\ &=\sum_{i=1}^{m}\left (y_i\beta^T\hat{x_i}-\ln_{}{\left ( 1+e^{\beta^T\hat{x}_i}\right ) } \right ) \end{aligned}$

3.2 对数几率回归算法的机器学习三要素：

1.模型：线性模型，输出值的范围为 $[0, 1]$ ，近似阶跃的单调可微函数
2.策略：极大似然估计，信息论
3.算法：梯度下降、牛顿法

4.二分类线性判别分析

4.1 算法原理

从几何的角度，让全体训练样本经过投影后：

异类样本的中心尽可能远
同类样本的方差尽可能小

4.2 损失函数推导

经过投影后，异类样本的中心尽可能远：
$\max \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2$
经过投影后，同类样本的方差尽可能小：
$\min w^T\Sigma _0w$
$\begin{aligned} \max J&=\frac{ \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2 }{ w^T\Sigma _0w+w^T\Sigma _1w}\\ &=\frac{ \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2 }{ w^T\left ( \Sigma _0+\Sigma _1 \right ) w}\\ &=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T\left ( \Sigma _0+\Sigma _1 \right ) w} \end{aligned}$
令 $S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$ ， $S_w=\Sigma _0+\Sigma _1$ ，
则优化问题转化为
$\min_w-w^TS_bw\\ s.t. \quad w^TS_ww=1$
由拉格朗日乘子法可得拉格朗日函数为
$\begin{aligned} L\left ( w,\lambda \right ) =-w^TS_bw+\lambda \left ( w^TS_ww-1 \right ) \end{aligned}$
对 $w$ 求偏导可得
$\begin{aligned} \frac{\partial L\left ( w,\lambda \right )}{\partial w} =-(S_b+S_b^T)w+\lambda(S_w+S_w^T)w \end{aligned}$
令上式等于0可得
$S_bw=\lambda S_ww$
$(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw=\lambda S_ww$
令 $(\mu_0-\mu_1)^Tw=\gamma$ 可得
$w=\frac{\gamma }{\lambda } S_w^{-1}(\mu_0-\mu_1)$

参考文献：

《机器学习》周志华著清华大学出版社
Datawhale开源学习课程https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70W

侍伟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吃瓜任务2

1.一元线性回归1.1 最小二乘估计基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。E(w,b)=∑i=1m(yi−f(xi))2=∑i=1m(yi−(wxi+b))2=∑i=1m(yi−wxi−b)2\begin{aligned}E_{\left ( w,b \right ) } &=\sum_{i=1}^{m} \left ( y_i-f\left (x_i \right ) \right ) ^{2} \\ &=\sum_{i=1}^{m} \left ( y
复制链接

扫一扫