机器学习之梯度下降法数学推导--分类

最新推荐文章于 2024-05-27 20:03:59 发布

会打代码的扫地王大爷

最新推荐文章于 2024-05-27 20:03:59 发布

阅读量2.7k

点赞数

分类专栏：梯度下降 Hexo csuncle 机器学习文章标签：机器学习数学梯度下降算法

本文链接：https://blog.csdn.net/wlmnzf/article/details/74116787

版权

csuncle 同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

机器学习

3 篇文章 0 订阅

订阅专栏

梯度下降

2 篇文章 0 订阅

订阅专栏

PS:本文中的log等同于我们国内的ln

sigmoid函数

之前那一文中提到了一般的梯度上升的公式推导，但是在《机器学习实战》一书中，实现的是分类方法，因此，虽然最终的结果相似，但是其实本质有很大的不同。

一般来讲我们把实物分成两类，因此我们需要将结果映射到两个结果(是或非)，因为一般的阶跃函数在求导之类的问题上会变得相当复杂，因此我们用一个更加圆滑的sigmoid函数来映射，所有输入到这个函数的实数都会被转化到0-1之间，它的公式为 $g(z)=\frac{1}{1+e^{-z}}$

同时它对应的图像如图所示:
sigmoid

于是我们可以将得到的结果进行四舍五入，分类成0或1

Logistic 回归

这里的意思是，将我们的分类边界线作模型，进行拟合，并以此来分类。

我们假设经过sigmoid函数处理过的结果为 $h_{\Theta}(x)$ ,因为是在0-1之间，因此可以看做是概率，另外，我们可以假设，分类到0或者1的概率。

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x) (1)

$P(y=1|x;\theta)=h_{\theta}(x) \\ P(y=0|x;\theta)=1-h_{\theta}(x) \tag{1}$
将以上两个概率公式整合一下成为一个概率公式，

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y (2)

$p(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y} \tag{2}\\$

梯度上升解决回归问题

1. 最大似然估计

这里我们使用最大似然估计法，这个在大学的高等数学中应该都有学习过，就不在赘述。这里假设我们有m个训练集。

L (θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i) (3)

$L( \theta )=\prod _{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)=\prod _{i=1}^{m}(h_\theta(x^{(i)}))^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-{y^{(i)}}} \tag{3}$
为了求导方便，我们一般会将似然函数L加上log函数，因为log函数是递增函数，因此不影响似然函数求最值。
这里会用到一个log函数的性质

logab=bloga $log a^b=b log a$ ，推导得：

l (θ) = l o g L (θ) = \sum i = 1 m y (i) l o g h (x (i)) + (1 - y (i)) l o g (1 - h (x (i))) (4)

$l(\theta)=logL(\theta)=\sum_{i=1}^my^{(i)}logh(x^{(i)})+(1-y^{(i)})log(1-h(x^{(i)})) \tag{4}$
将l函数对

θ $\theta$ 求导

\partial \partial θ j l (θ) = (y 1 h θ ( x ) - (1 - y) 1 1 - h θ ( x )) \partial \partial θ j h θ x (5)

$\frac{\partial }{\partial\theta_j }l(\theta)=(y\frac{1}{h_\theta (x)}-(1-y)\frac{1}{1-h_\theta (x)})\frac{\partial}{\partial\theta_j}h_\theta x \tag{5}$

2. sigmoid函数求导

h' (x) = d d x 1 1 + e - x = 1 ( 1 + e - x ) 2 (e - x) = 1 ( 1 + e - x ) (1 - 1 ( 1 + e - x )) = h (x) (1 - h (x)) (6)

$\begin{equation} \begin{split} &h'(x)=\frac{d}{dx}\frac{1}{1+e^{-x}}\\ &=\frac{1}{(1+e^{-x})^2} (e^{-x})\\ &=\frac{1}{(1+e^{-x})}(1-\frac{1}{(1+e^{-x})})\\ &=h(x)(1-h(x)) \end{split} \end{equation} \tag{6}$

3. 似然估计后续

从上一篇文章，或者从《机器学习实战》chapter5 中可得sigmoid函数h(x)的输入函数是 $w=\theta^Tx$ ,将其代入公式(4)，得到

l' (θ) = (y 1 h ( θ T x ) - (1 - y) 1 1 - h ( θ T x )) \partial \partial θ j h (θ T x) = (1 h ( θ T x ) - (1 - y) 1 1 - h ( θ T x )) h (θ T x) (1 - h (θ T x) \partial \partial j θ T x) = (y (1 - h (θ T x)) - (1 - y) h (θ T x)) x j = (y - h θ (x)) x j (7)

$\begin{equation} \begin{split} &l'(\theta)=(y\frac{1}{h(\theta^Tx)}-(1-y)\frac{1}{1-h{(\theta^Tx)}}) \frac{\partial}{\partial\theta_j}h(\theta^Tx)\\ &=(\frac{1}{h(\theta^Tx)}-(1-y)\frac{1}{1-h(\theta^Tx)})h(\theta^Tx)(1-h(\theta^Tx)\frac{\partial}{\partial_j}\theta^Tx)\\ &=(y(1-h(\theta^Tx))-(1-y)h(\theta^T x))x_j\\ &=(y-h_\theta(x))x_j \end{split} \end{equation} \tag{7}$

会打代码的扫地王大爷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之梯度下降法数学推导--分类

PS:本文中的log等同于我们国内的lnsigmoid函数之前那一文中提到了一般的梯度上升的公式推导，但是在《机器学习实战》一书中，实现的是分类方法，因此，虽然最终的结果相似，但是其实本质有很大的不同。一般来讲我们把实物分成两类，因此我们需要将结果映射到两个结果(是或非)，因为一般的阶跃函数在求导之类的问题上会变得相当复杂，因此我们用一个更加圆滑的sigmoid函数来映射，所有输入
复制链接

扫一扫