logistic回归

最新推荐文章于 2024-07-11 15:21:16 发布

xifuture_

最新推荐文章于 2024-07-11 15:21:16 发布

阅读量174

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xifuture_/article/details/78700787

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

模型

二分类任务，已知m个样本

X = {x 1, x 2, x 3, \dots, x m}

$X= \left \{ x^1,x^2,x^3,\cdots,x^m \right \}$ 对应类别标签

Y = {y 1, y 2, y 3, \dots, y m}

$Y= \left \{ y^1,y^2,y^3,\cdots,y^m \right \}$

x有n维特征 $x^i=\left \{ x^i_1,x^i_2,x^i_3,\cdots,x^i_n \right \}$
y类别标签 $y^i\in 0, 1$
根据 $X,Y$ 估计模型， $\hat{y}=p(y=1|x)$
线性回归中， $\hat{y}=w^Tx+b$
我们期望 $0\leqslant\hat{y}\leqslant1$
令 $z=w^Tx+b$
$y^= σ (z) = 1 1 + e - z$ $\begin{aligned}\hat{y}&=\sigma(z) \\ &=\frac{1}{1+e^{-z}}\end{aligned}$
其中 $\sigma()函数，称为sigmoid、S、logistic函数$
σ()函数，可通过通过指数分布族、生成学习假设先验概率分布推导，这里不做推导。

代价函数

loss function
1个样本的损失函数
对于正例，类标签 $y=1$ ，负例，类标签 $y=0$ ，每个训练样本定义一个伯努利分布：

p (y | x) = y^y (1 - y^) 1 - y

$p(y|x)=\hat{y}^y(1-\hat{y})^{1-y}$
对上述条件似然取对数，不影响单调性

l o g (p (y | x)) = y l o g y^+ (1 - y) l o g (1 - y^)

$log(p(y|x))=ylog\hat{y}+(1-y)log(1-\hat{y})$
我们期望最小化损失函数

L (y^, y) = - (y l o g y^+ (1 - y) l o g (1 - y^))

$\mathcal{L}(\hat{y},y)=-(ylog\hat{y}+(1-y)log(1-\hat{y}))$
cost function 代价函数，
推广到样本集，假设所有训练样本独立同分布

P = \prod i = 1 m p (y i | x i)

$P=\prod _{i=1}^{m}p(y^i|x^i)$
取对数

l o g (P) = \sum i = 1 m l o g (p (y i | x i))

$log(P)=\sum _{i=1}^{m}log(p(y^i|x^i))$
同样，定义代价函数，以最小化

J (w, b) = 1 m \sum i = 1 m l (y^i, y i) = 1 m \sum i = 1 m (y i l o g y^i + (1 - y i) l o g (1 - y^i))

$\begin{aligned}J(w,b)&=\frac{1}{m}\sum _{i=1}^{m}l(\hat{y}^i,y^i)\\ &=\frac{1}{m}\sum _{i=1}^{m}(y^ilog\hat{y}^i+(1-y^i)log(1-\hat{y}^i))\end{aligned}$
目标

w *, t * = a r g m i n J (w, b)

$w^*,t^*=arg minJ(w,b)$
找使

J(w,b) $J(w,b)$ 最小化的解

w∗,t∗ $w^*,t^*$ ，可以证明

J(w,b) $J(w,b)$ 为凸函数，这是一个凸优化问题，这里一般采用梯度下降法来求解（或可认为逼近）

梯度下降

$w=w-\alpha*\frac{dJ(w,b)}{dw}$

$b=b-\alpha*\frac{dJ(w,b)}{db}$

初始化 $w,b，logistic回归中可初始化为0,0$
$\alpha$ 为步长（学习速率），控制梯度下降速度及精度
关于梯度下降算法介绍，可以参考这里

实现

$z=w^Tx+b$

$\hat{y}=a=\sigma(z)$

$\mathcal{L}(\hat{y},y)=-(ylog(a)+(1-y)log(1-a))$
一个样本x有n维特征 $x=\left \{ x_1,x_2,x_3,\cdots,x_n \right \}$
$w$ 定义
$⎡ ⎣ ⎢ ⎢ ⎢ ⎢ w 1 w 2 ⋮ w n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$ $\begin{bmatrix} w_1\\ w_2\\ \vdots\\ w_n\\ \end{bmatrix}$
$d{w_1}=\frac{d\mathcal{L}(w,b)}{dw}$ ，链式求导 $d{w_1}=\frac{d\mathcal{L}}{da}*\frac{da}{dz}*\frac{dz}{dw_1}$

$\begin{aligned}\frac{d\mathcal{L}}{da}=-\frac{y}{a}+\frac{1-y}{1-a}\end{aligned}$

$\begin{aligned}\frac{da}{dz}=a*(1-a)\end{aligned}$

$d a d z = (1 1 + e - z)' = - (1 + e - z) - 2 * (e - z)' = (1 + e - z) - 2 * (e - z) = 1 1 + e - z * e - z 1 + e - z = a * 1 + e - z - 1 1 + e - z = a * (1 - a)$ $\begin{aligned}\frac{da}{dz}&={\left(\frac{1}{1+e^{-z}}\right)}'\\ &=-(1+e^{-z})^{-2}*{(e^{-z})}'\\ &=(1+e^{-z})^{-2}*(e^{-z})\\ &=\frac{1}{1+e^{-z}}*\frac{e^{-z}}{1+e^{-z}}\\ &=a*\frac{1+e^{-z}-1}{1+e^{-z}}\\ &=a*(1-a)\\ \end{aligned}$

$\begin{aligned}\frac{dz}{dw_1}=x_1\end{aligned}$

综上 $\begin{aligned}d{w_1}=(a-y)*x_1\end{aligned}$

同样，可以得到 $\begin{aligned}db&=\frac{d\mathcal{L}}{da}*\frac{da}{dz}*\frac{dz}{db}=(a-y)\end{aligned}$