回归-逻辑回归

最新推荐文章于 2024-08-07 20:59:55 发布

天空中的一缕微风

最新推荐文章于 2024-08-07 20:59:55 发布

阅读量710

点赞数 1

分类专栏： machine learning 文章标签：机器学习

本文链接：https://blog.csdn.net/zlbflying/article/details/48683271

版权

machine learning 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

前言

前面一节介绍了梯度下降的概念，本质上它是一个优化问题，通过不断的迭代来求得局部最优值，本节将介绍一个非常有名的函数-sigmoid函数，而逻辑回归可以看成是一个线性回归的值再通过非线性函数sigmoid映射到0-1空间，逻辑回归的使用非常广泛，在广告点击、预测、分类中都有它的影子，同时，它也是神经网络中神经元的一种常见形式。

sigmoid函数

$sigmoid$ 函数是非常有名的一个非线性函数，函数形式如下所示：

g (z) = 1 1 + e - z

$g(z)={1 \over {1+e^{-z}}}$

sigmoid $sigmoid$ 函数非常简单，我们任何一个人都可以画出它的图形，当

z=0 $z=0$ 时，

g(z)=12 $g(z)={1 \over 2}$ ，当

z>1 $z>1$ 时，

g(z)>0.5 $g(z) > 0.5$ ，反之，

g(z)<0.5 $g(z)<0.5$ 。sigmoid函数图形如下所示：
sigmoid

当然，在实践中应用比较多的非线性函数还有

tanh $tanh$ 函数。它们都能将值映射到一个区间，

sigmoid $sigmoid$ 是0~1，

tanh $tanh$ 是-1~+1。

逻辑回归

逻辑回归的过程

所谓逻辑回归，我拿神经网络中的一个基础神经单元为例，图例如下所示。对于变量 $x_1,x_2,x_3,…,x_n$ ，它有一个权重系数 $w_i$ ， $b$ 是一个偏置量， $\sum_{i=1}^n w_i*x_i + b$ 不就是我们常见的线性回归的形式吗？经此计算得出结果 $z$ 之后，我们再将 $z$ 输入一个非线性的激活函数 $h(z)$ ，得到的a就是我们的最终结果，如果 $h(z)$ 是 $sigmoid$ 函数，那么这个过程就是逻辑回归的过程。

OK，我想逻辑回归它的概念大家应该已经了解了，其实就是先线性回归再带到激活函数中。下面再从数学上继续对它进行一些挖掘。

逻辑回归的二分理解

我们看到 $sigmoid$ 函数的区间是0~1，跟概率论中的概率累积函数是一致的，好的，理解到这就是关键，我们对它进行求导，就得到了概率分布函数如下所示：

g' (z) = 1 1 + e - z * (1 - 1 1 + e - z)

$g^{'}(z)={1 \over 1+e^{-z}}*({1-{1 \over 1+e^{-z}})}$
逻辑回归是一个二分类的问题，就是说对于结果我们一般只取

0 $0$ 或者

1 $1$ 两个值，我们假设

p (y = 1 | x) = 1 1 + e - z

$p(y=1|x) = {1 \over 1+e^{-z}}$ 那么

p (y = 0 | x) = 1 - 1 1 + e - z

$p(y=0|x) = 1-{1 \over 1+e^{-z}}$ 此时，

p(y=1|x)+p(y=0|x)=1 $p(y=1|x) +p(y=0|x) =1$ ，逻辑回归的二分类问题解释完毕。

参数的估计

这里列出最终的逻辑回归公式，如下所示：

g (z) = 1 1 + e \sum n i = 1 w i * x i + b = 1 1 + e W T X

$g(z)={1 \over {1+e^{\sum_{i=1}^n w_i*x_i + b}}}={1 \over {1+e^{W^TX}}}$
在实际情况中，偏置量

b $b$ 通常取1.0，它并不会对参数

W $W$ 产生影响，因此在求参过程中我们直接省略偏置量。对于伯努利分布，我们估计参数采用的通常是最大似然估计，因此参考 http://blog.csdn.net/zlbflying/article/details/48474837中求取伯努利分布时参数的方法，对数似然函数为：

L (θ) = \sum i = 1 m (y (i) l o g h (x (1)) + (1 - y (i)) l o g (1 - h (x (i))))

$L(\theta) = \sum_{i=1}^m (y^{(i)}logh(x^{(1)})+(1-y^{(i)})log(1-h(x^{(i)})))$

h(x) $h(x)$ 就是激活函数实际计算出来的结果。将上述的结果对

wj $w_j$ 进行求导，这里忽略求和…..

\partial L ( θ ) \partial w j = (y * 1 h ( x ) - (1 - y) * 1 1 - h ( x )) * \partial h ( x ) \partial w j

${\partial L(\theta) \over \partial w_j} = (y*{1 \over h(x)}-(1-y)*{1 \over {1-h(x)}})* {\partial h(x) \over \partial w_j }$

\partial h ( x ) \partial w j = h (x) * (1 - h (x)) * \partial W T X w j = h (x) * (1 - h (x)) * x j

${\partial h(x) \over \partial w_j } = h(x)*(1-h(x))*{\partial W^TX \over w_j} = h(x)*(1-h(x))*x_j$
因此：

\partial L ( θ ) \partial w j = (y - h (x)) * x j

${\partial L(\theta) \over \partial w_j} =(y-h(x))*x_j$
与线性回归的结果是一致的。接下来，就可以按照梯度下降的更新公式更新参数

w <script type="math/tex" id="MathJax-Element-6023">w</script>。

实际例子

以《机器学习实战》中逻辑回归中提供的数据集为例，格式如下：

-0.017612   14.053064   0
-1.395634   4.662541    1
-0.752157   6.538620    0
-1.322371   7.152853    0
0.423363    11.054677   0
0.406704    7.067335    1
0.667394    12.741452   0
-2.460150   6.866805    1
0.569411    9.548755    0
……

batch梯度下降的关键代码如下：

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)             
    labelMat = mat(classLabels).transpose() 
    m,n = shape(dataMatrix)
    alpha = 0.001   #学习率，实际情况下需要不断调整
    maxCycles = 500 #迭代次数
    weights = ones((n,1))
    for k in range(maxCycles):              
        h = sigmoid(sum(dataMatrix*weights)) 
        error = (labelMat - h)            
        weights = weights + alpha * dataMatrix.transpose()* error  #梯度更新公式 w = w + alpha*(y-h(x))*x
    return weights

运行结果如下：

天空中的一缕微风

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
回归-逻辑回归

前言前面一节介绍了梯度下降的概念，本质上它是一个优化问题，通过不断的迭代来求得局部最优值，本节将介绍一个非常有名的函数-sigmoid函数，而逻辑回归可以看成是一个线性回归的值再通过非线性函数sigmoid映射到0-1空间，逻辑回归的使用非常广泛，在广告点击、预测、分类中都有它的影子，同时，它也是神经网络中神经元的一种常见形式。sigmoid函数 sigmoidsigmoid函数是非常
复制链接

扫一扫

专栏目录