UA MATH571A 多元线性回归IV 广义线性模型

最新推荐文章于 2023-01-18 13:06:28 发布

一个不愿透露姓名的孩子

最新推荐文章于 2023-01-18 13:06:28 发布

阅读量982

点赞数

分类专栏： # 线性回归文章标签：概率论机器学习

本文链接：https://blog.csdn.net/weixin_44207974/article/details/103652670

版权

本文深入探讨了广义线性模型，包括Probit模型和Logit模型，重点阐述了二值被解释变量的回归分析，如二项回归。还介绍了系数的最大似然估计、拟合优度检验（如Pearson卡方、Deviance和Hosmer-Lemeshow检验）以及多值被解释变量的处理方法。

摘要由CSDN通过智能技术生成

广义线性模型

$Y_1,Y_2,...,Y_N$ 是服从指数分布族某一分布的被解释变量，并且 $EY_i=\mu_i$ ，存在某个函数 $g$ 使得解释变量与 $g(\mu_i)$ 之间具有线性关系
$g(\mu_i) = X_i \beta$
这样的回归模型叫广义线性回归模型。显然当 $g(\mu_i)=\mu_i$ 时，回归模型是多元线性回归，当 $g$ 是Logistics函数的反函数时，是Logistics回归。

二值被解释变量

回归模型
$Y_i = X_i \beta + \epsilon_i$
中，有时 $Y_i = 0,1$ ，这类解释变量叫二值被解释变量，这种回归可以用来做两分类问题。如果把 $Y_i$ 视为Bernoulli随机变量，则
$p_i =P(Y_i = 1)= E[Y_i] = X_i \hat{\beta}$
表示的是成功概率。这个模型比较直白，问题也比较多。

残差项不满足正态假设
给定样本时，残差只有两个可能的取值，当 $Y_i=0$ 时， $\epsilon_i = -X_i \hat{\beta}$ ，当 $Y_i=1$ 时， $\epsilon_i = 1-X_i \hat{\beta}$ ，显然这不服从正态分布。
同方差假设不成立
残差与 $Y_i$ 同分布， $\sigma^2(\epsilon_i)=-X_i \hat{\beta}(1-X_i \hat{\beta})$ ，显然与 $X_i$ 有关，同方差假设不成立。
回归方程取值受限
由于拟合值的含义是概率，因此 $E[Y_i] = X_i \hat{\beta} \in [0,1]$ ，否则拟合值无意义。

所以二值被解释变量一般做如下处理。假设 $Y_i^c$ 是一个连续型的变量，但在观测时只取0和1，假设取值的规律为
$Y_i = 1,\ if\ Y_i^c\le Y_0 \\Y_i = 0,\ if\ Y_i^c > Y_0$
则
$P(Y_i=1) = P(Y_i^c \le Y_0)$
假设 $Y_i^c$ 满足线性回归模型
$Y_i^c = X_i \beta + \epsilon_i,\ \epsilon_i \sim N(0,\sigma^2_c)$
则
$P(Y_i=1) = P(Y_i^c \le Y_0) = P(X_i \beta + \epsilon_i \le Y_0 )\\ =P(\epsilon_i \le Y_0 - X_i \beta) = P(\frac{\epsilon_i}{\sigma_c} \le \frac{Y_0}{\sigma_c} - X_i \frac{\beta}{\sigma_c})$