本文链接：https://blog.csdn.net/weixin_67497686/article/details/132482621

6逻辑回归

logistic 逻辑 regression 回归

6.1Logistic的起源

19世纪，一叫阿道夫的数学家研究人口增长问题，其用W(t)表示 t 时刻 的人口总量，那么求导后 $\frac{dW(t)}{dt}$ 就是人口增长率。

{线性关系：y与x成线性关系，即y=kx，k为常数}

恰好这个人口增长率( y= $\frac{dW(t)}{dt}$ )和人口总量( x=W(t) ) 成线性关系(y=kx)，可以写成： $\frac{dW(t)}{dt}=\beta W(t)$

接着，如果想求出人口总量W(t)的表达式, 就可以把上式推到写成： $\frac{dW(t)}{W(t)}=\beta dt$

求解以上的微分方程，可以得到：lnW(t) = βt + C，

于是，人口总量W(t)的表达式： $W(t) = e^{\beta t+C}=Ae^{\beta t} = W(0)e^{\beta t}$

这里的W(0) = A 就是指从 0 时刻开始的人口数量.

可以看出，此处人口模型是一个指数模型，意味着人会越来越多，没有上限。{这显然是不合理的}

当然地球的资源是有限的，所以肯定不能无休止的增长下去，阿道夫发现这个问题非常有趣，于是他把这个课题交给了他的学生维尔赫斯特。

他想既然不能无限制的增长，那么就减去一个限制函数，这样就不会是越来越大的增长率啦。

$\frac{dW(t)}{W(t)}=\beta dt - \phi (W(t))$ (1)

他做过很多的尝试后发现，减去的这个限制函数最理想的就是二次函数，因为二次函数有增有减。最终写成：

$\frac{dW(t)}{W(t)}=\overline\beta W(t) [\Omega -W(t)) ]$ （2）

这里的 $\overline\beta$ 和上式中的 β 不同，但都表示的是常系数，两者关系如下：

$\beta =\overline\beta \Omega$ 这里的 Ω 代表的是环境所允许的最大人口总量。

把 $\overline\beta =\frac{\beta }{\Omega }$ 代入（2）式中，有

$\frac{dW(t)}{W(t)}=\frac{\beta }{\Omega } W(t) [\Omega -W(t)) ]=\beta W(t)-\frac{\beta }{\Omega } W(t)^{2}$ (3)

再把（3）式与（1）式进行比较就知道什么是什么了

回到这个微分函数中，可以看出他的曲线是一条先增后减的二次曲线，在 $W(t) = \frac{\Omega }{2}$ 时人口达到最大值。

注意，图形的横轴自变量是 W(t)

如果想用一个比例系数来表示当前 t 时刻的人口数量占环境允许的最大人口总量的比值时，那么可以把这个比例系数写为 p(t) 写成：

$p(t) =\frac{W(t) }{\Omega }$

接着，如果我们想知道变化率，可以对 p(t) 求一阶导数。

$\frac{dp(t)}{dt} =\frac{d\frac{W(t) }{\Omega }}{dt} = \frac{1}{\Omega }\frac{dW(t) }{dt}$ ,

然而

$\frac{dW(t)}{W(t)}=\overline\beta W(t) [\Omega -W(t)) ]$

故

$\frac{dp(t)}{dt} =\frac{d\frac{W(t) }{\Omega }}{dt} = \frac{1}{\Omega }\frac{dW(t) }{dt} = \frac{1}{\Omega }\overline\beta W(t) [\Omega -W(t) ]$

又因为比例系数 $p(t) =\frac{W(t) }{\Omega }$ ，则W(t) = Ω p(t) ，把该式代入上式中，

$\frac{dp(t)}{dt} =\frac{d\frac{W(t) }{\Omega }}{dt} = \frac{1}{\Omega }\frac{dW(t) }{dt} = \frac{1}{\Omega }\overline\beta W(t) [\Omega -W(t) ]=\overline\beta \Omega p(t) [1 -p(t) ] = \beta p(t) [1 -p(t) ]$

现在我们就得到了 p(t) 的微分方程，有了这个方程就可以求出 p(t) 的表达式啦。同样的将和 p(t) 有关的，移到左边，将和 t 有关的移到右边。

注意，此处的 log 即 ln

6.2 Logistic Distribution

1.如何推导出Logistic分布函数

搞清楚了 Logistic 函数的由来，接着看看什么是 Logistic Distribution. 还是从 Logistic 函数入手，令 x = α + βt ，那么 p(t) 函数可以写成 F(x) 的形式：

$F(x) = \frac{e^{x}}{1+e^{x}} = \frac{1}{1+e^{-x}}$

这里的又称为 「Sigmoid 激活函数」，不客气的说，神经网络的核心在这这个函数身上了。我们把它绘制出来就得到了一条曲线：

该函数有什么特性呢？

⚪从函数整体可以看出，x增大时，exp(-x)减小，则 $F(x) =\frac{1}{1+e^{-x}}$ 增大，故F(x)非减

综上，我们就可以判断出 F(x) 是一个分布函数（概率论的内容，分布函数的充要条件？），接着就可以对它进行求导，就是概率密度。

f（x）就是 F(x) 的概率密度函数，我们把它画出来看看。

这个函数和正态分布非常像，也是中间对称。这是因为因为它同样属于指数分布家族，但是两者也有不同。

为何日常生活中，都假设是正太分布下发生的，而不是logistic distribution 函数呢？

那是因为在给定均值和方差时，正态分布是具有最大熵的分布，所以正态分布的假设可以使得数据携带的信息量最大。

类似于标准的正态分布 N(0 , 1) ：

标准的正态分布中的 $\mu =0$ 代表了分布函数所处的「位置」，在Logistic分布这里我们也用 「μ」 来表示。

标准的正态分布中的 $\sigma =1$ 代表了分布函数的「尺度变换」，即胖瘦，在Logistic分布这里我们用 「γ」 来表示。

2.Logistic Distribution

接着可以做一个简单的变换：

也就意味着，此时分布函数是以 x = μ 对称。

6.3Logistic Regression

在介绍Logistic Regression之前，我们先来说一说达尔文的表弟，弗朗西斯·高尔顿。

受表哥达尔文出版的《物种起源》影响，高尔顿对人类遗传学产生了浓厚的兴趣，现在被大家广泛应用的指纹学就是他提出来的。

高尔顿以生物遗传学为中心，开展了对人类遗传的研究，并且做了一个关于身高的实验。

这是不是说明「高个子的父亲，生的儿子就会更高，矮个子的父亲，生的儿子就会更矮呢」。

可能一般人研究到这里就会打住，觉得，哎呀不得了，我发现了一种规律，不错不错！

但是高尔顿，没有停下思考，他又计算了这1000多组数据中父亲身高的平均值和儿子身高的平均值，发现儿子身高平均值是大于父亲身高平均值的，高尔顿很兴奋，他通过数据做了个大胆的猜测：如果父亲身高高，儿子身高也会倾向高的一类，但是并不像父亲距离平均值那么远；反之，如果父亲身高矮，儿子身高也会倾向矮的一类，但也并不像父亲距离平均值那么远。

于是高尔顿得到一个结论，「大自然就像一只无形的手，有一种约束力，将人类的身高控制在一个相对稳定定的状态中」，不然的话，若按照之前的想法，高的父亲儿子更高、矮的父亲那儿子更矮，人类的身高岂不就向高矮两个极端分化了吗，这显然是不合理的，大自然也不允许呀！所以，大自然控制着人类的身高回归到中心，因此他用Regress 就是退回的意思来描述这个过程，这就是「回归Regression的由来，回到本源」。

1.Logistic Regression的生成过程

高尔顿研究身高得到了一个回归模型，最简单的「一元」线性回归

$y=x\beta +\alpha +\varepsilon$

这里的 $\varepsilon$ 代表了误差项。

如果想拓展到「多元」，也就是输入变量 x 、β 就变成了多元的向量，写成：

$y=\overline x \overline\beta +\alpha +\varepsilon$

但这时候有个问题:

(因为，如果她两不是线性关系的话，期望E(y)就得不出那个结果？)

如果「能做个变换将非线性转换为线性」，是不是容易出来了呢？

我们可以试试。假如存在某个函数 g(x) ，将它作用在输出变量 y 上，如果能够得出线性形式，那么就实现了转换。

这就是「广义线性模型」:

$g(y)=\overline x \overline\beta +\alpha$

个人理解： 原来是 $y=\frac{e^{x}}{1+e^{x}}$ , 因 $x=g(y)=ln(\frac{y}{1-y})$ ，用y的式子来表示x；

上面把 $x=g(y)=ln(\frac{y}{1-y})=\overline x \overline\beta +\alpha$

也就是相当于把 $\overline x \overline\beta +\alpha$ 看作x的意思，再转化成y=x的式子形式，即相当于把 $\overline x \overline\beta +\alpha$ 代入到

最初的 $y=\frac{e^{x}}{1+e^{x}}$ 的x当中。{把逻辑函数的非线性利用线性转换回归到逻辑函数本身==逻辑回归}

对于逻辑分布函数，，它的输入变量x，与输出变量y = F(x)之间不是线性关系，即非线性，所以，按照上面的办法进行转换，得到的就是逻辑分布函数的线性回归模型，，所以最后才说得到了logisit regression

接着看一下具体的模型方程。

2.Logistic Regression模型

黄色这块就是我们最初的逻辑函数： $F(x) = \frac{e^{x}}{1+e^{x}} = \frac{1}{1+e^{-x}}$ ，在经过回归后还是回到本身，wx+b替代x。可能是因为逻辑函数它本来是搞人口总量，人口增长率，当前人口/允许最大人口的，是一个小于1的数，有人把它和它的对立面合成为1，作为逻辑回归模型？

只是个名字而已。