【学习机器学习】线性模型相关方程求解

最新推荐文章于 2021-12-25 13:32:19 发布

Morphlng

最新推荐文章于 2021-12-25 13:32:19 发布

阅读量867

点赞数 3

分类专栏：学习机器学习文章标签：机器学习算法逻辑回归

本文链接：https://blog.csdn.net/weixin_44151650/article/details/105588334

版权

学习机器学习专栏收录该内容

9 篇文章 6 订阅

订阅专栏

前言

机器学习已经学到线性模型了，今天课上讲了两个方法，一个是对单一属性线性回归使用的最小二乘法，一个是对多元回归使用的极大似然法。老师过的太快了没有怎么搞明白，尤其是其中的推导，大量的“易证”，实际上还是需要些步骤的。因此今天我就来把这两个方法中的一些解方程的步骤写一下

1. 单一属性线性回归——最小二乘法中 $\omega$ 和b求解

方程组：

$\frac{\partial E_(\omega,b)}{\partial \omega}=2(\omega \sum_{i=1}^{m} x_i^2-\sum_{i=1}^{m} (y_i-b)x_i)=0$ …(1)

$\frac{\partial E_(\omega,b)}{\partial b}=2(mb -\sum_{i=1}^{m} (y_i-wx_i))=0$ …(2)

由(2)式可得，

$b=\frac{1}{m} \sum_{i=1}^{m}(y_i-\omega x_i)$

将其带入(1)式，则有

$\omega \sum_{i=1}^m x_i^2 - \sum_{i=1}^m y_ix_i + b \sum_{i=1}^m x_i=0$

$\omega \sum_{i=1}^m x_i^2 + \frac{1}{m} \sum_{i=1}^{m}(y_i-\omega x_i) \sum_{i=1}^m x_i=\sum_{i=1}^m y_ix_i$

$\omega \sum_{i=1}^m x_i^2 + \frac{1}{m} \sum_{i=1}^{m}(y_i x_i) - \frac{\omega}{m}( \sum_{i=1}^m x_i)^2=\sum_{i=1}^m y_ix_i$

$\omega(\sum_{i=1}^m x_i^2 - \frac{1}{m} (\sum_{i=1}^m x_i)^2)=\sum_{i=1}^m y_ix_i - \frac{1}{m} \sum_{i=1}^m y_ix_i$

得， $\omega = \frac{\sum_{i=1}^m y_i(x_i-x_均)}{\sum_{i=1}^m x_i^2 - \frac{1}{m}(\sum_{i=1}^m x_i)^2}$ ，其中 $x_均=\frac{1}{m}\sum_{i=1}^m x_i$

2. 对数几率回归——极大似然法

2.1 对数几率函数

对于二分类问题，假定其预测值与输出标记有如下关系：

$z=\omega^Tx+b$ ， $y\in {0,1}$

最理想的函数——单位阶跃函数：

$y = 0, z < 0$
$y = 0.5, z = 0$
$y = 1, z > 0$

但是这是一个离散的函数，我们可以用一个与其等价的替代函数来表示，即：

$y=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-(\omega^Tx+b)}}$

我们称上述函数为对数几率函数，注意到这是一个单调可微、任意阶可导的广义线性模型函数

2.2 对数几率

我们可以用上述函数去求取对数几率，即样本作为正例的相对可能性的对数:

$\ln \frac{y}{1-y}$

对于二分类问题来说，即

$\ln \frac{p(y=1|x)}{p(y=0|x)}=\omega^Tx+b$

注意到 $p (y = 1 ∣ x)$ 和 $p (y = 0 ∣ x)$ 之和为1，因此可以解得 $p(y=1|x)=\frac{e^{\omega^Tx+b}}{1+e^{\omega^Tx+b}}$ ， $x)=\frac{1}{1+e^{\omega^Tx+b}}$

2.3 对数几率回归——极大似然法

极大似然法是一种参数估计法，也就是通过部分观测值，反推导致这样结果的参数的一种方法。我们做线性回归，就是为了得出一组系数和截距，使得 $f(x_i)=\omega^Tx_i+b$ 成立，因此下面我们采用极大似然法，通过一组给定的数据集，去反推出系数与截距 $\omega$ 和 $b$ 。

首先我们对原式做一些修改，令 $\beta = (\omega ; b)$ ， $x^{'} = (x; 1)$ ，则 $\omega^Tx+b$ 可简写为 $\beta^Tx'$ 。 $\beta$ 实际上就是一个系数、截距矩阵，我们去构造关于 $\beta$ 的似然函数

再令

$p_1(x_i';\beta)=p(y=1|x';\beta)$

$p_0(x_i';\beta)=p(y=0|x';\beta)$

这样一来，就有似然函数：

$l(\omega,b)=\prod_{i=1}^m p_1(x_i';\beta)^{y_i}p_0(x_i';\beta)^{1-y_i}$

取对数：

$l(\omega,b)=\sum_{i=1}^m \ln p(y_i|x_i;\omega_i,b)$

$l(\omega,b)$
$=\sum_{i=1}^m [\ln p(y_i|x_i;\omega_i,b)]$
$\sum_{i=1}^m\left\{ \ln [p_1(x_i';\beta)^{y_i}+ \ln p_0(x_i';\beta)^{1-y_i}]\right\}$
$\sum_{i=1}^m\left\{ y_i \ln[p_1(x_i';\beta)]+ (1-y_i) \ln [1-p_1(x_i';\beta)]\right\}$
$\sum_{i=1}^m \left\{y_i \left\{\ln[p_1(x_i';\beta)] - \ln [1-p_1(x_i';\beta)]\right\} + \ln [1-p_1(x_i';\beta)]\right\}$
$\sum_{i=1}^m \left\{y_i \ln \frac{p_1(x_i';\beta)}{1-p_1(x_i';\beta)} + \ln [1-p_1(x_i';\beta)]\right\}$
$\sum_{i=1}^m (y_i \ln e^{\beta^Tx'} + \ln \frac{1}{1+e^{\beta^Tx'}})$
$\sum_{i=1}^m [y_i \beta^Tx' - \ln (1+e^{\beta^Tx'})]$

因此我们的目标结果也就是：

$\beta^*=argmax[l(\beta)]=argmin[-l(\beta)]=argmin\left\{\sum_{i=1}^m [-y_i \beta^Tx' + \ln (1+e^{\beta^Tx'})]\right\}$

结语

上面这堆公式打的我眼睛都花了，好在这下真的弄明白这两种算法是怎么来的了

Morphlng

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
【学习机器学习】线性模型相关方程求解

前言机器学习已经学到线性模型了，今天课上讲了两个方法，一个是对单一属性线性回归使用的最小二乘法，一个是对多元回归使用的极大似然法。老师过的太快了没有怎么搞明白，尤其是其中的推导，大量的“易证”，实际上还是需要些步骤的。因此今天我就来把这两个方法中的一些解方程的步骤写一下1. 单一属性线性回归——最小二乘法中ω\omegaω和b求解方程组：∂E(ω,b)∂ω=2(ω∑i=1mxi2−∑i=1...
复制链接

扫一扫