细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（二）

最新推荐文章于 2022-08-30 16:01:43 发布

芝麻挞

最新推荐文章于 2022-08-30 16:01:43 发布

阅读量199

点赞数

文章标签：数据挖掘机器学习逻辑回归数据分析

本文链接：https://blog.csdn.net/weixin_43928665/article/details/106817194

版权

第二节 —— 统计回归分析中的逻辑斯蒂

逻辑斯蒂分布
设X是随机变量。逻辑分布指满足如下累计分布函数和概率密度函数的分布：

$\leq x) = \frac{1}{1+e^{ \frac{-(x- \mu )}{s}}}$

$\frac{e^{ \frac{-(x- \mu )}{s}}}{s(1+e^{ \frac{-(x- \mu )}{s}})^2}$

$\mu$ ：位置参数，决定函数图像沿x轴方向的位移
$s$ ：形状参数，决定函数图像的高矮胖瘦
大家可以用几何画板画一下 $\mu$ 和 $s$ 取不同值时的图像，直观的理解一下这两个参数的作用。

$F (x)$ 是以点 $(\mu,\frac{1}{2})$ 中心对称的曲线。它越靠近中心增长越快。 $s$ 越小，在中心附近的增长越快。

特别地，当 $\mu$ =0, $s$ =1 时， $\frac{1}{1+e^{-x}} \color{red}= \sigma(x)$

逻辑斯蒂分布有和广泛的而应用。它最早来源于生长曲线的需要，现在还用于经济（例如描述一个产品在广告上投入与最后销售额的关系）、人口统计等领域。

逻辑斯蒂回归
对一个二元分类问题建模。

假设一个工厂生产的产品：达标/不达标 ~ $B e r n o u l l i (p)$ , p是产品达标的概率。
其中这个p受工厂其他各项指标的影响，比如流水线个数，员工人数，已投入使用时长，当日温度等等。假如我们就把举例的这四个作为特征，也就是说每一条数据（代表一个工厂）的特征向量有四维。

$\vec{x_i} = \left\{ \begin{matrix} x_{i1}\\x_{i2}\\x_{i3}\\x_{i4} \end{matrix} \right\}$

角标的含义： $x_{ij}$ 代表第 i 条数据的第 j 维。整个数据集的sample总数是N（i = 1, 2, …, N)
逻辑斯蒂回归的dataset应该是这个亚子的：

Index(i)	$r_i$	$n_i$	$P_i$	$\vec{x_i}$
1	$r_1$	$n_1$	$P_1=\frac{r_1}{n_1}$	$x_{11} \ \ \ x_{12} \ \ \ x_{13} \ \ \ x_{14})$
2	$r_2$	$n_2$	$P_2=\frac{r_2}{n_2}$	$x_{21} \ \ \ x_{22} \ \ \ x_{23} \ \ \ x_{24})$
…	…	…	…	…
…	…	…	…	…
N	$r_N$	$n_N$	$P_N=\frac{r_N}{n_N}$	$x_{N1} \ \ \ x_{N2} \ \ \ x_{N3} \ \ \ x_{N4})$

其中， $P_i$ 的计算方法就是从这个工厂的产品中抽出n个然后检测出当中有r个达标，用 $\frac{r}{n}$ 作为该工厂产品Bernoulli分布的 p . 刚才我们讲p受工厂的四个特征影响，那么我们的目标就是让p用 $\vec{x}$ 来表示。

Goal: Regress $P_i$ on $\vec{x_i}$

第一个当然想到的是直接把 $P_i$ 当做线性回归里面的 “y“

$\Rightarrow Model: P_i=\beta_0 + \beta_1x_{i1} + ... + \beta_4x_{i4} + \epsilon_i$

不过这个不太行，因为 $0\leq P_i \leq1$ ，而 $\vec {x_i}^T \vec{\beta}$ 可能落在这个区间外。这样用 $\vec {x_i}^T \vec{\beta}$ 表示 $P_i$ 就没有意义。

Idea: Do transformation on $P_i$ （统计学中 logistic regression 的精髓呀呀呀！）

$\Rightarrow Model: log(\frac{P_i}{1-P_i})=\beta_0 + \beta_1x_{i1} + ... + \beta_4x_{i4} + \epsilon_i$

$\Leftrightarrow Model: log(\frac{P_i}{1-P_i})=\vec {x_i}^T \vec{\beta} + \vec \epsilon$

$\Leftrightarrow Fitted \ model: log(\frac{\hat{P_i}}{1-\hat{P_i}})=\vec {x_i}^T \hat{\vec{\beta}}$

有 ^ 符号的代表是根据样本数据算出来的参数estimates。对上式做一点变形：

$\ model: \hat{P_i} = \frac{exp(\vec {x_i}^T \vec{\beta})}{1+exp(\vec {x_i}^T \vec{\beta})} = \frac{1}{1+exp(- \ \vec {x_i}^T \vec{\beta})} \color{red}= \sigma(\vec {x_i}^T \vec{\beta})$

Index(i)	$r_i$	$n_i$	$P_i$	$y=log(\frac{P_i}{1-P_i})$	$\vec{x_i}$
1	$r_1$	$n_1$	$P_1=\frac{r_1}{n_1}$	$log(\frac{P_1}{1-P_1})$	$x_{11} \ \ \ x_{12} \ \ \ x_{13} \ \ \ x_{14})$
2	$r_2$	$n_2$	$P_2=\frac{r_2}{n_2}$	$log(\frac{P_2}{1-P_2})$	$x_{21} \ \ \ x_{22} \ \ \ x_{23} \ \ \ x_{24})$
…	…	…	…	…	…
…	…	…	…	…	…
N	$r_N$	$n_N$	$P_N=\frac{r_N}{n_N}$	$log(\frac{P_N}{1-P_N})$	$x_{N1} \ \ \ x_{N2} \ \ \ x_{N3} \ \ \ x_{N4})$

具体在计算的时候，把上面那个表格里每一行的 $P_i$ 都算一个相应的
$log(\frac{P_i}{1-P_i})$ ，并把这个当成线性回归里面的 “y”，剩下的回归就都清楚啦~

下面简单说一下为什么要这么做 transformation。

在统计学中一个事件A的几率：odds = $\frac{P(A)}{1-P(A)}$

对数几率 = $log(\frac{P(A)}{1-P(A)})$

对数几率这个函数叫做 $l o g i t$ 函数： $\frac{y}{1-y}$

回到刚才的例子中，那么A =“达标”。 $P_i= P(A \ |\ \vec{x_i})$

$\ of \ A \ at \ \vec{x_i} = \frac{P(A \ |\ \vec{x_i})}{1-P(A \ |\ \vec{x_i})} = \frac{P_i}{1-P_i}$

$log\ odds\ of\ A\ at\ \vec{x_i} = log\Big(\frac{P_i}{1-P_i}\Big) = \vec {x_i}^T \vec{\beta} + \vec \epsilon$

于是，逻辑斯蒂回归用一句话概括就是：用 $\vec{x}$ 的线性函数去拟合了二元事件的对数几率。因此，逻辑斯蒂回归也叫作 “对数几率回归”。

广义线性

一般线性： $\color{#FF7256}y\color {black} = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} +... + \epsilon_i = \vec {x_i}^T \vec{\beta} + \vec \epsilon$

广义线性： $\color{#FF7256}transformation\ of\ y \color{black}= \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} +... + \epsilon_i = \vec {x_i}^T \vec{\beta} + \vec \epsilon$

transformation 可以用 $l o g (y)$ ， $l o g i t (y)$ ， $\Phi^{-1}(y)$ 等等。 $\leftarrow \Phi^{-1} 是正态分布的累计分布函数的反函数$ 。

在logistic regression中就是用的 $l o g i t$ 函数做的 transformation。所以，说白了logistic regression依然是Independent variable $\vec{x}$ 的线性模型，只是给Dependent variable 套了一层外衣。

芝麻挞

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（二）

第二节 —— 统计回归分析中的逻辑斯蒂逻辑斯蒂分布设X是随机变量。逻辑分布指满足如下累计分布函数和概率密度函数的分布：F(x)=P(X≤x)=11+e−(x−μ)sF(x) = P(X \leq x) = \frac{1}{1+e^{ \frac{-(x- \mu )}{s}}}F(x)=P(X≤x)=1+es−(x−μ)1f(x)=F′(x)=e−(x−μ)ss(1+e−(x−μ)s)2f(x) = F'(x) = \frac{e^{ \frac{-(x- \mu )}{s}}}{s(1+
复制链接

扫一扫