应用广义线性模型三|多响应广义线性模型

最新推荐文章于 2024-06-24 00:36:46 发布

丁希希哇

最新推荐文章于 2024-06-24 00:36:46 发布

阅读量385

点赞数 8

分类专栏：统计相关理论文章标签：学习概率论

本文链接：https://blog.csdn.net/weixin_47748259/article/details/139411384

版权

统计相关理论专栏收录该内容

17 篇文章 0 订阅

订阅专栏

系列文章目录

文章目录

系列文章目录
一、多响应变量模型
二、多响应分布及简单性质
三、模型参数的极大似然估计
四、多响应模型的假设检验
- （一）关于模型参数的假设检验
- （二）关于模型的拟合优度检验
五、多响应广义线性模型的应用

如果响应变量是多水平的分类变量，建模时不能将这类响应变量处理成取多个不同值的单变量，而应将其按照哑变量编码，结果形成二维响应变量。

一、多响应变量模型

多响应变量：
分类变量 $Y$ 的量化方法是将其k个类别量化为整数1到k，这样Y就形式上称为取值为 ${1,...,k\}$ 的数值变量，称之为多响应变量，或整值响应变量。但是Y的不同值之间的加减乘除运算没有实际意义，因此在已知X的情况下Y的概率加权平均就没有实际意义，即 $E (Y ∣ X)$ 没有实际意义。

记 $q = k - 1$ ，就可以将Y量化为哑变量编码： $Y=(1_{\{类1\}}(Y),...,1_{\{类q\}}(Y))$ ，称这个向量为多响应向量，或哑值响应变量，第k分类为参考类。
$\begin{aligned} E(Y|X)=&(E(1_{\{类1\}}(Y)|X),...,E(1_{\{类q\}}(Y)|X))\\ =&(P(Y=1|X),...,P(Y=q|X)) \end{aligned}$

$E (Y ∣ X)$ 唯一决定Y的条件密度，即其刻画了在已知X情况下Y的随机变化规律。

多响应广义线性模型：
多响应广义线性模型，简称多响应模型， $Z = Z (X)$ 为多响应模型的设计向量， $\beta$ 为模型参数， $h$ 为响应函数。
$E(Y|X)=h(Z\beta)$

若Y与解释变量X有关系，则他的条件期望就应该与X有关系，即存在（可逆）映射：
$h(\eta)=(h_1(\eta),...,h_q(\eta))$
当响应函数 $h$ 可逆时， $g=h^{-1}$ 为连接函数，进而可以将多响应广义线性模型表示为：
$g(E(Y|X))=Z\beta$

多响应逻辑回归模型：
当响应函数 $h$ 的第 $r$ 分量为：
$h_r(s_1,...s_q)=\frac{exp(s_r)}{1+\sum_{j=1}^qexp(s_j)},1\leq r\leq q$
模型即为多响应逻辑回归模型。

二、多响应分布及简单性质

对于k分类响应变量Y，记： $\pi=(\pi_1,...,\pi_q),\pi_i=P(Y=i),1\leq i \leq q=k-1$ ，则Y的哑变量编码Y服从多响应分布，其密度为：
$P(Y=(y_1,...,y_q))=(1-\sum_{k=1}^q\pi_k)^{1-\sum_{k=1}^qy_k}\prod_{i=1}^q\pi_i^{y_i}$
多响应向量Y的数学期望和方差矩阵：
$E(Y)=\pi$
又由哑变量编码结构知Y的分量为0或1，且至多只有一个分量为1，因此： $Y^TY=diag(Y)$ ，进而有：
$Var(Y)=E(Y^TY)-(E(Y))^TE(Y)=diag(\pi)-\pi^T\pi$

三、模型参数的极大似然估计

对于来自多响应广义线性模型的独立观测样本 $(X_i,Y_i),1\leq i\leq n$ ，则：
$(\pi_1(X_i),\pi_2(X_i),...,\pi_q(X_i))=E(Y_i|X_i)=h(Z_i\beta)$
且有：
$\begin{aligned} P(Y_i=(y_1,...,y_q)|X_i)=&(1-\sum_{k=1}^q\pi_k(X_i))^{1-\sum_{k=1}^qy_k}\prod_{k=1}^q(\pi_k(X_i))^{y_i}\\ =&(1-\sum_{k=1}^qh_k(Z_i\beta)^{1-\sum_{k=1}^qy_k}\prod_{k=1}^q(h_k(Z_i\beta))^{y_i} \end{aligned}$

因此第i观测的似然函数为：
$L_i(\beta)=(1-\sum_{k=1}^qh_k(Z_i\beta)^{1-\sum_{k=1}^qY_k}\prod_{k=1}^q(h_k(Z_i\beta))^{Y_k}$

得分函数用于评估参数估计的好坏：
假设我们有一个参数为向量 $\theta$ 的模型，它对分布 $p(x|\theta)$ 建模。在频率派统计学中，学习 $\theta$ 的方法是最大化 $p(x|\theta)$ 与参数 $\theta$ 的似然。为了评估我们对 $\theta$ 估计的好坏，定义了评分函数：（对数似然函数的梯度）
$s(\theta)=\nabla_\theta \log p(x|\theta)$
Fisher信息矩阵用于评估对于估计值的把握：
围绕估计值的期望，根据模型评分的协方差定义一个不确定性度量：
$E_{p(x|\theta)}[(s(\theta)-0)(s(\theta)-0)^T]=E_{p(x|\theta)}[\nabla \log p(x|\theta)\nabla \log p(x|\theta)^T]$

四、多响应模型的假设检验

（一）关于模型参数的假设检验

多响应模型中模型参数的假设检验问题： $H_0:C\beta=\xi$

$C$ 是已知的 $s\times t$ 行满秩矩阵，称为限制矩阵
$\xi$ 为已知的s维列向量，称为限制向量
$\beta=(\beta_1,...,\beta_t)^T$ 是模型参数

在一般条件下模型参数的极大似然估计：
$\hat{\beta}\overset{\text{a}}{\sim}N(\beta,F^{-1}(\hat{\beta}))$

对数似然比统计量：
$\lambda=-2(l(\tilde{\beta}-(\hat{\beta}))\overset{\text{a}}{\sim}\chi^2(s)$

Wald统计量：
Wald统计量为 $C\hat{\beta}$ 与 $C\beta=\xi$ 之间距离的加权平均：
$W=(C\hat{\beta}-\xi)^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}(C\hat{\beta}-\xi)\overset{\text{a}}{\sim}\chi^2(s）$

$\hat{\beta}$ 是极大似然估计量
$F^{-1}(\hat{\beta})$ 为Fisher信息矩阵的逆矩阵

得分统计量：
$U=s(\tilde{\beta})F^{-1}(\tilde{\beta})(s(\tilde{\beta}))^T\overset{\text{a}}{\sim}\chi^2(s）$

$s$ 为得分函数
$\tilde{\beta}$ 为限制极大似然估计
$F^{-1}(\tilde{\beta})$ 为Fisher信息矩阵的逆矩阵在限制极大似然估计点处的值

标准化统计量：
实际应用时会经常关心模型参数的第 $i$ 分量 $\beta_i$ 是否为0，如果为0，就说明响应变量与设计向量的第 $i$ 个分量没有关系，否则响应变量就与设计向量的第i个分量有关系。
$H_0:\beta_i=0$
这个假设检验问题可以使用似然比统计、Wald统计量或得分统计量来简答，但是也有更简单的统计量：
$Z_i=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}}$
其中， $a_{ii}$ 为 $F(\hat{\beta}))^{-1}$ 的对角线上的第i个元素。在原假设成立的条件下， $Z_i\overset{\text{a}}{\sim}N(0,1)$ ，因此用标准化统计量解答假设检验问题的p值为：
$P(|Z_i|\geq |z_i|)=2\Phi(-|z_i|)$
当p值小于显著性水平时拒绝原假设，否则接受原假设。

（二）关于模型的拟合优度检验

皮尔逊统计量是衡量响应广义线性模型拟合效果的指标之一：
$\chi^2=\sum_{i=1}^gn_i(\bar{Y_i}-h(Z(x_i)\hat{\beta}))V_i^{-1}(\bar{Y_i}-h(Z(x_i)\hat{\beta}))^T$
其中：
$\bar{Y_i}=\frac{1}{n_i}\sum_{j=1}^n1_{\{x_i\}}(X_j)Y_j$
且：
$V_i=diag(h(Z(x_i)\hat{\beta}))-(h(Z(x_i)\hat{\beta}))^Th(Z(x_i)\hat{\beta})$
在皮尔逊统计量中， $\bar{Y_k}-h(Z(v_k)\hat{\beta})$ 是频率与概率估计值之差， $\hat{D}(\bar{Y_k})=\frac{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}{n_k}$ 是 $D(\bar{Y_k})$ 的估计值，显然： $\frac{(\bar{Y}_k-h(Z(v_k)\hat{\beta}))^2}{\hat{D}(\bar{Y_k})}$ 越小，说明用 $h(Z(v_k)\hat{\beta})$ 估计 $P(Y|X=v_k)$ 的效果越好。因此可以用其和 $\chi^2$ 来衡量广义线性模型的拟合效果：皮尔逊统计量 $\chi^2$ 越小，拟合的效果越好。

对于分组数据，皮尔逊计量要求各个 $n_k$ 都很大的情况效果才会好，当 $n_i$ 很小，甚至等于1的情况，皮尔逊统计量比较模型的效果会很差。

偏差统计量：
$f_{tj}=\frac{1}{n_t}\sum_{i\in\{m:X_m=x_t\}}1_{\{j\}}(Y_i),1\leq t\leq g,1\leq j\leq k$
是第t样本点组中 ${Y=j\}$ 的频率。记：
$l_0=\sum_{t=1}^g(n_t\sum_{j=1}^kf_{tj}log f_{tj})$
约定当 $f_{tj}=0$ 时 $f_{tj}logf_{tj}=0$ 。称：
$D=2(l_0-l(\hat{\beta}))$
为广义线性模型的偏差统计量，该统计量越小，模型的拟合效果越好。

五、多响应广义线性模型的应用

（一）选择模型

通过假设检验问题判断变量在模型中是否有作用
当解释变量 $W=(W_11_{\{1\}}(Y),...W_k1_{\{k\}}(Y))$ 时，即为类别解释变量，此时可以选择设计矩阵为：
$\begin{pmatrix} 1 & X &&&&W_1-W_k \\ & & \ddots && & \vdots \\ &&&1&X&W_q-W_k \end{pmatrix}$
- 其中 $X$ 是与响应变量取值无关的p维解释变量，称为全局解释变量
- 参数 $\beta=(\beta_1,...,\beta_q)$ 中 $\beta_r=(\beta_{0,r},\beta_{1,r},...,\beta_{p,r})$ 与类别有关，称为类别参数；参数 $\gamma$ 与类别无关，称为全局参数。

（二）次序响应变量模型

次序响应变量模型中，响应变量的分类具有次序的含义。此时可以按分类次序将响应变量编号为 $1, 2..., k$ ，使得编号具有两层含义：其一是分类，其二是次序。次序能供更多的信息。

累积模型：
假设我们有一个次序分类响应变量 $Y$ ，其可能取值为 ${1,2,...,k\}$ ，假设存在一个潜变量 $U$ ，这个潜变量具有某种连续分布函数，并且其值被以下实数阈值所决定：
$-∞=\theta_0<\theta_1<...<\theta_k=∞$
即，类别 $Y$ 是由潜变量 $U$ 和这些阈值之间的关系决定的：
$Y=r\Longleftrightarrow \theta_{r-1}<U\leq \theta_r$
对于解释变量 $X$ ，通常假设潜变量 $U=-X\gamma+\epsilon$ ，其中 $\epsilon$ 的分布函数为 $F$ ，得：
$P(Y\leq r|X)=P(U\leq \theta_r|X)=P(-X\gamma+\epsilon\leq \theta_r)=p(\epsilon\leq \theta_r+X\gamma)=F(\theta_r+X\gamma)$
称之为累计模型。

累积逻辑回归模型：
取：
$\frac{1}{1+exp(-x)}$
即得累积逻辑回归模型：
$P(Y\leq r|X)=\frac{exp(\theta_r+X\gamma)}{1+exp(\theta_r+X\gamma)}$
它的等价表示是优势：
$\frac{P(Y\leq r|X)}{P(Y> r|X)}=exp(\theta_r+X\gamma)$
优势比为：
$\frac{P(Y\leq r|X_1)/P(Y> r|X_1)}{P(Y\leq r|X_2)/P(Y> r|X_2)}=exp((X_1-X_2)\gamma)$

分组Cox模型或比例风险模型：
取极小值分布：
$F(X)=1-\exp(-\exp(X))$
模型就成为了极小值分布概率模型或chaglog模型：
$P(Y\leq r|X)=1-\exp(-exp(\theta_r+X\gamma))$

极大值分布模型：
取极大值分布：
$F(X)=\exp(-\exp(-X))$
模型就成为了极小值分布概率模型或chaglog模型：
$P(Y\leq r|X)=\exp(-exp(-(\theta_r+X\gamma)))$

累计模型的响应函数：
由： $P(Y=r|X)=F(\theta_r+X\gamma)-F(\theta_{r-1}+X\gamma)$ 得该模型的响应函数 $h$ 的第 $r$ 分量：
$h_r(u)=F(u_r)-F(u_{r-1})$

（三）累积模型的推广

累积模型假设阈值 $\theta_1,...,\theta_k$ 均与解释变量无关，累计模型的推广就是将其推广为假设阈值与解释变量 $W$ 有线性关系： $\theta_r=\beta_{r,0}+W\beta_r,1\leq r<k$

推广的累计模型为：
$P(Y\leq r|x)=F(\beta_{r,0}+W\beta_r+X\gamma)$

推广累计模型的响应函数：
由： $P(Y=r|X)=F(\beta_{r,0}+W\beta_r+X\gamma)-F(\beta_{r,0}+W\beta_{r-1}+X\gamma)$ 得该模型的响应函数 $h$ 的第 $r$ 分量：
$h_r(u)=F(u_r)-F(u_{r-1})$