线性回归和逻辑回归

心️升明月

已于 2022-02-07 22:07:48 修改

阅读量769

点赞数 2

分类专栏：机器学习文章标签：线性回归逻辑回归拟合分类

于 2022-02-07 21:16:59 首次发布

本文链接：https://blog.csdn.net/weixin_43821559/article/details/122813643

版权

机器学习专栏收录该内容

24 篇文章 10 订阅

订阅专栏

文章目录

一、线性回归
二、逻辑回归
- 1、Sigmoid函数
- 2、求导过程
三、参考文献

一、线性回归

1、例子

假设有两个特征——工资和年龄，目标是预测银行会贷款给我多少钱(标签)，工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢？(参数)

2、数学模型

假设 $\theta_1$ 是年龄的参数， $\theta_2$ 是工资的参数，拟合的平面方程为： $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2\tag{1}$ 其中， $\theta_0$ 为偏置项。
用矩阵乘法可表示为： $h_\theta(x)=\sum_{i=0}^n\theta_ix_i=\theta^Tx\tag{2}$ 其中 $x_0$ 为全1向量。

3、误差

真实值和预测值之间存在差异(用 $\varepsilon$ 来表示该误差值)，对于每个样本： $y^{(i)}=\theta^Tx^{(i)}+\varepsilon^{(i)}\tag{3}$ 其中，误差 $\varepsilon^{(i)}$ 独立同分布，并且服从均值为0方差为 $\sigma^2$ 的高斯分布，即： $p(\varepsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}\right)\tag{4}$ 将式(3)代入式(4)，得： $p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\right)\tag{5}$ 似然函数为： $L(\theta)=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\right)\tag{6}$ 对似然函数取自然对数： $\ln L(\theta)=\ln\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\right)\tag{7}$ 展开化简为： $\ln L(\theta)=m\ln\frac{1}{\sqrt{2\pi}\sigma}-\frac1{\sigma^2}\cdot\frac12\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2\tag{8}$ 目标是让似然函数值越大越好，即： $\max\left\{J(\theta)=\frac12\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2=\frac12(X\theta-y)^T(X\theta-y)\right\}\tag{9}$ 对 $\theta$ 求偏导： $\begin{aligned}\frac{\partial J(\theta)}{\partial\theta}=\frac{\partial}{\partial\theta}\left(\frac12(X\theta-y)^T(X\theta-y)\right)\\\\ =\frac{\partial}{\partial\theta}\left(\frac12(\theta^TX^T-y^T)(X\theta-y)\right)\\\\=\frac{\partial}{\partial\theta}\left(\frac12(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta+y^Ty)\right)\\\\=\frac12\left(2X^TX\theta-X^Ty-(y^TX)^T\right)\\\\=X^TX\theta-X^Ty\end{aligned}\tag{10}$ 令偏导等于0，解得： $\theta=\left(X^TX\right)^{-1}X^Ty\tag{11}$

4、评估方法

最常用的评估项： $R^2=1-\frac{\displaystyle\sum_{i=1}^m(\hat{y}_i-y_i)^2}{\displaystyle\sum_{i=1}^m(y_i-\bar{y})^2}\tag{12}$ $R^2$ 的取值越接近于1认为模型拟合的越好。

5、梯度下降

目标函数： $J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{i})-y^{i})\tag{13}$

5.1 批量梯度下降

$\frac{\partial J(\theta)}{\partial \theta_j}=-\frac1m\sum_{i=1}^m(y^{i}-h_\theta(x^{i}))x_j^i\tag{14}$ $\theta_j'=\theta_j+\frac1m\sum_{i=1}^m(y^{i}-h_\theta(x^{i}))x_j^i\tag{15}$ 容易得到最优解，但是由于每次考虑所有样本，速度很慢。

5.2 随机梯度下降

$\theta_j'=\theta_j+(y^{i}-h_\theta(x^{i}))x_j^i\tag{16}$ 每次找一个样本，迭代速度快，但不一定每次都朝着收敛的方向。

5.3 小批量梯度下降

$\theta_j'=\theta_j-\alpha\frac1n\sum_{k=i}^{i+n}(h_\theta(x^{k})-y^{k})x_j^k\tag{17}$ 每次更新选择一小部分数据来算，比较实用，是当前主流的方法。

二、逻辑回归

逻辑回归(Logistic regression)是经典的二分类算法，其决策边界可以是非线性的。

1、Sigmoid函数

Sigmoid函数表达式为： $g(z)=\frac{1}{1+e^{-z}}\tag{18}$ 其自变量取值为任意实数，值域为 $[0, 1]$ ，二维平面图如图1所示。
在这里插入图片描述

图1 Sigmoid函数图形

将任意的输入映射到了 $[0, 1]$ 区间，然后在线性回归中可以得到一个预测值，再将该值映射到Sigmoid函数中这样就完成了由值到概率的转换，也就是分类任务。
预测函数为： $h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}\tag{19}$ 其中， $\theta_0+\theta_1x_1+\cdots+\theta_nx_n=\sum_{i=1}^n\theta_ix_i=\theta^Tx$ 。
分类任务可分解为： $\begin{dcases}P(y=1|x;\theta)=h_\theta(x)\\P(y=0|x;\theta)=1-h_\theta(x)\end{dcases}\tag{20}$ 即： $P(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}\tag{21}$ 对于二分类任务 $(0, 1)$ ，整合后 $y$ 取0只保留 $(1-h_\theta(x))^{1-y}$ ， $y$ 取1只保留 $(h_\theta(x))^y$ 。
似然函数： $L(\theta)=\prod_{i=1}^mP(y_i|x_i;\theta)=\prod_{i=1}^m(h_\theta(x_i))^{y_i}(1-h_\theta(x_i))^{1-y_i}\tag{22}$ 对数似然： $l(\theta)=\ln L(\theta)=\sum_{i=1}^m(y_i\ln h_\theta(x_i)+(1-y_i)\ln(1-h_\theta(x_i)))\tag{23}$ 此时应用梯度上升求最大值，引入 $J(\theta)=-\frac1ml(\theta)$ 转换为梯度下降任务。

2、求导过程

$\frac{\partial J(\theta)}{\partial\theta_j}=-\frac1m\sum_{i=1}^m\left(y_i\frac1{h_\theta(x_i)}\frac{\partial}{\partial\theta_j}h_\theta(x_i)-(1-y_i)\frac{1}{1-h_{\theta}(x_i)}\frac{\partial}{\partial\theta_j}h_\theta(x_i)\right)\\\\=-\frac1m\sum_{i=1}^m\left(y_i\frac{1}{g(\theta^Tx_i)}-(1-y_i)\frac{1}{1-g(\theta^Tx_i)}\right)\frac{\partial}{\partial\theta_j}g(\theta^Tx_i)\\\\=-\frac1m\sum_{i=1}^m\left(y_i\frac{1}{g(\theta^Tx_i)}-(1-y_i)\frac{1}{1-g(\theta^Tx_i)}\right)g(\theta^Tx_i)(1-g(\theta^Tx_i))\frac{\partial}{\partial\theta_j}\theta^Tx_i\\\\=-\frac1m\sum_{i=1}^m\left(y_i(1-g(\theta^Tx_i))-(1-y_i)g(\theta^Tx_i)\right)x_i^j\\\\=-\frac1m\sum_{i=1}^m\left(y_i-g(\theta^Tx_i)\right)x_i^j\\\\=\frac1m\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j\tag{24}$ 参数更新： $\theta_j'=\theta_j-\alpha\frac1m\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j\tag{25}$

三、参考文献

[1] 唐宇迪. 跟着迪哥学Python数据分析与机器学习实战[M]. 北京: 人民邮电出版社, 2019: 112-125.

心️升明月

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
线性回归和逻辑回归

文章目录一、线性回归1、例子2、数学模型3、误差4、评估方法5、梯度下降5.1 批量梯度下降5.2 随机梯度下降5.3 小批量梯度下降二、逻辑回归1、Sigmoid函数2、求导过程三、参考文献一、线性回归1、例子假设有两个特征——工资和年龄，目标是预测银行会贷款给我多少钱(标签)，工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢？(参数)2、数学模型假设θ1\theta_1θ1是年龄的参数，θ2\theta_2θ2是工资的参数，拟合的平面方程为：hθ(x)=θ0+θ1x1+θ2x
复制链接

扫一扫