系列文章目录
文章目录
如果响应变量是多水平的分类变量,建模时不能将这类响应变量处理成取多个不同值的单变量,而应将其按照哑变量编码,结果形成二维响应变量。
一、多响应变量模型
多响应变量:
分类变量
Y
Y
Y的量化方法是将其k个类别量化为整数1到k,这样Y就形式上称为取值为
{
1
,
.
.
.
,
k
}
\{1,...,k\}
{1,...,k}的数值变量,称之为多响应变量,或整值响应变量。但是Y的不同值之间的加减乘除运算没有实际意义,因此在已知X的情况下Y的概率加权平均就没有实际意义,即
E
(
Y
∣
X
)
E(Y|X)
E(Y∣X)没有实际意义。
记
q
=
k
−
1
q=k-1
q=k−1,就可以将Y量化为哑变量编码:
Y
=
(
1
{
类
1
}
(
Y
)
,
.
.
.
,
1
{
类
q
}
(
Y
)
)
Y=(1_{\{类1\}}(Y),...,1_{\{类q\}}(Y))
Y=(1{类1}(Y),...,1{类q}(Y)),称这个向量为多响应向量,或哑值响应变量,第k分类为参考类。
E
(
Y
∣
X
)
=
(
E
(
1
{
类
1
}
(
Y
)
∣
X
)
,
.
.
.
,
E
(
1
{
类
q
}
(
Y
)
∣
X
)
)
=
(
P
(
Y
=
1
∣
X
)
,
.
.
.
,
P
(
Y
=
q
∣
X
)
)
\begin{aligned} E(Y|X)=&(E(1_{\{类1\}}(Y)|X),...,E(1_{\{类q\}}(Y)|X))\\ =&(P(Y=1|X),...,P(Y=q|X)) \end{aligned}
E(Y∣X)==(E(1{类1}(Y)∣X),...,E(1{类q}(Y)∣X))(P(Y=1∣X),...,P(Y=q∣X))
E ( Y ∣ X ) E(Y|X) E(Y∣X)唯一决定Y的条件密度,即其刻画了在已知X情况下Y的随机变化规律。
多响应广义线性模型:
多响应广义线性模型,简称多响应模型,
Z
=
Z
(
X
)
Z=Z(X)
Z=Z(X)为多响应模型的设计向量,
β
\beta
β为模型参数,
h
h
h为响应函数。
E
(
Y
∣
X
)
=
h
(
Z
β
)
E(Y|X)=h(Z\beta)
E(Y∣X)=h(Zβ)
若Y与解释变量X有关系,则他的条件期望就应该与X有关系,即存在(可逆)映射:
h
(
η
)
=
(
h
1
(
η
)
,
.
.
.
,
h
q
(
η
)
)
h(\eta)=(h_1(\eta),...,h_q(\eta))
h(η)=(h1(η),...,hq(η))
当响应函数
h
h
h可逆时,
g
=
h
−
1
g=h^{-1}
g=h−1为连接函数,进而可以将多响应广义线性模型表示为:
g
(
E
(
Y
∣
X
)
)
=
Z
β
g(E(Y|X))=Z\beta
g(E(Y∣X))=Zβ
多响应逻辑回归模型:
当响应函数
h
h
h的第
r
r
r分量为:
h
r
(
s
1
,
.
.
.
s
q
)
=
e
x
p
(
s
r
)
1
+
∑
j
=
1
q
e
x
p
(
s
j
)
,
1
≤
r
≤
q
h_r(s_1,...s_q)=\frac{exp(s_r)}{1+\sum_{j=1}^qexp(s_j)},1\leq r\leq q
hr(s1,...sq)=1+∑j=1qexp(sj)exp(sr),1≤r≤q
模型即为多响应逻辑回归模型。
二、多响应分布及简单性质
对于k分类响应变量Y,记:
π
=
(
π
1
,
.
.
.
,
π
q
)
,
π
i
=
P
(
Y
=
i
)
,
1
≤
i
≤
q
=
k
−
1
\pi=(\pi_1,...,\pi_q),\pi_i=P(Y=i),1\leq i \leq q=k-1
π=(π1,...,πq),πi=P(Y=i),1≤i≤q=k−1,则Y的哑变量编码Y服从多响应分布,其密度为:
P
(
Y
=
(
y
1
,
.
.
.
,
y
q
)
)
=
(
1
−
∑
k
=
1
q
π
k
)
1
−
∑
k
=
1
q
y
k
∏
i
=
1
q
π
i
y
i
P(Y=(y_1,...,y_q))=(1-\sum_{k=1}^q\pi_k)^{1-\sum_{k=1}^qy_k}\prod_{i=1}^q\pi_i^{y_i}
P(Y=(y1,...,yq))=(1−k=1∑qπk)1−∑k=1qyki=1∏qπiyi
多响应向量Y的数学期望和方差矩阵:
E
(
Y
)
=
π
E(Y)=\pi
E(Y)=π
又由哑变量编码结构知Y的分量为0或1,且至多只有一个分量为1,因此:
Y
T
Y
=
d
i
a
g
(
Y
)
Y^TY=diag(Y)
YTY=diag(Y),进而有:
V
a
r
(
Y
)
=
E
(
Y
T
Y
)
−
(
E
(
Y
)
)
T
E
(
Y
)
=
d
i
a
g
(
π
)
−
π
T
π
Var(Y)=E(Y^TY)-(E(Y))^TE(Y)=diag(\pi)-\pi^T\pi
Var(Y)=E(YTY)−(E(Y))TE(Y)=diag(π)−πTπ
三、模型参数的极大似然估计
对于来自多响应广义线性模型的独立观测样本
(
X
i
,
Y
i
)
,
1
≤
i
≤
n
(X_i,Y_i),1\leq i\leq n
(Xi,Yi),1≤i≤n,则:
(
π
1
(
X
i
)
,
π
2
(
X
i
)
,
.
.
.
,
π
q
(
X
i
)
)
=
E
(
Y
i
∣
X
i
)
=
h
(
Z
i
β
)
(\pi_1(X_i),\pi_2(X_i),...,\pi_q(X_i))=E(Y_i|X_i)=h(Z_i\beta)
(π1(Xi),π2(Xi),...,πq(Xi))=E(Yi∣Xi)=h(Ziβ)
且有:
P
(
Y
i
=
(
y
1
,
.
.
.
,
y
q
)
∣
X
i
)
=
(
1
−
∑
k
=
1
q
π
k
(
X
i
)
)
1
−
∑
k
=
1
q
y
k
∏
k
=
1
q
(
π
k
(
X
i
)
)
y
i
=
(
1
−
∑
k
=
1
q
h
k
(
Z
i
β
)
1
−
∑
k
=
1
q
y
k
∏
k
=
1
q
(
h
k
(
Z
i
β
)
)
y
i
\begin{aligned} P(Y_i=(y_1,...,y_q)|X_i)=&(1-\sum_{k=1}^q\pi_k(X_i))^{1-\sum_{k=1}^qy_k}\prod_{k=1}^q(\pi_k(X_i))^{y_i}\\ =&(1-\sum_{k=1}^qh_k(Z_i\beta)^{1-\sum_{k=1}^qy_k}\prod_{k=1}^q(h_k(Z_i\beta))^{y_i} \end{aligned}
P(Yi=(y1,...,yq)∣Xi)==(1−k=1∑qπk(Xi))1−∑k=1qykk=1∏q(πk(Xi))yi(1−k=1∑qhk(Ziβ)1−∑k=1qykk=1∏q(hk(Ziβ))yi
因此第i观测的似然函数为:
L
i
(
β
)
=
(
1
−
∑
k
=
1
q
h
k
(
Z
i
β
)
1
−
∑
k
=
1
q
Y
k
∏
k
=
1
q
(
h
k
(
Z
i
β
)
)
Y
k
L_i(\beta)=(1-\sum_{k=1}^qh_k(Z_i\beta)^{1-\sum_{k=1}^qY_k}\prod_{k=1}^q(h_k(Z_i\beta))^{Y_k}
Li(β)=(1−k=1∑qhk(Ziβ)1−∑k=1qYkk=1∏q(hk(Ziβ))Yk
得分函数用于评估参数估计的好坏:
假设我们有一个参数为向量 θ \theta θ的模型,它对分布 p ( x ∣ θ ) p(x|\theta) p(x∣θ)建模。在频率派统计学中,学习 θ \theta θ的方法是最大化 p ( x ∣ θ ) p(x|\theta) p(x∣θ)与参数 θ \theta θ的似然。为了评估我们对 θ \theta θ估计的好坏,定义了评分函数:(对数似然函数的梯度)
s ( θ ) = ∇ θ log p ( x ∣ θ ) s(\theta)=\nabla_\theta \log p(x|\theta) s(θ)=∇θlogp(x∣θ)
Fisher信息矩阵用于评估对于估计值的把握:
围绕估计值的期望,根据模型评分的协方差定义一个不确定性度量:
E p ( x ∣ θ ) [ ( s ( θ ) − 0 ) ( s ( θ ) − 0 ) T ] = E p ( x ∣ θ ) [ ∇ log p ( x ∣ θ ) ∇ log p ( x ∣ θ ) T ] E_{p(x|\theta)}[(s(\theta)-0)(s(\theta)-0)^T]=E_{p(x|\theta)}[\nabla \log p(x|\theta)\nabla \log p(x|\theta)^T] Ep(x∣θ)[(s(θ)−0)(s(θ)−0)T]=Ep(x∣θ)[∇logp(x∣θ)∇logp(x∣θ)T]
四、多响应模型的假设检验
(一)关于模型参数的假设检验
多响应模型中模型参数的假设检验问题: H 0 : C β = ξ H_0:C\beta=\xi H0:Cβ=ξ
- C C C是已知的 s × t s\times t s×t行满秩矩阵,称为限制矩阵
- ξ \xi ξ为已知的s维列向量,称为限制向量
- β = ( β 1 , . . . , β t ) T \beta=(\beta_1,...,\beta_t)^T β=(β1,...,βt)T是模型参数
在一般条件下模型参数的极大似然估计:
β
^
∼
a
N
(
β
,
F
−
1
(
β
^
)
)
\hat{\beta}\overset{\text{a}}{\sim}N(\beta,F^{-1}(\hat{\beta}))
β^∼aN(β,F−1(β^))
对数似然比统计量:
λ
=
−
2
(
l
(
β
~
−
(
β
^
)
)
∼
a
χ
2
(
s
)
\lambda=-2(l(\tilde{\beta}-(\hat{\beta}))\overset{\text{a}}{\sim}\chi^2(s)
λ=−2(l(β~−(β^))∼aχ2(s)
Wald统计量:
Wald统计量为
C
β
^
C\hat{\beta}
Cβ^与
C
β
=
ξ
C\beta=\xi
Cβ=ξ之间距离的加权平均:
W
=
(
C
β
^
−
ξ
)
T
(
C
(
F
(
β
^
)
)
−
1
C
T
)
−
1
(
C
β
^
−
ξ
)
∼
a
χ
2
(
s
)
W=(C\hat{\beta}-\xi)^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}(C\hat{\beta}-\xi)\overset{\text{a}}{\sim}\chi^2(s)
W=(Cβ^−ξ)T(C(F(β^))−1CT)−1(Cβ^−ξ)∼aχ2(s)
- β ^ \hat{\beta} β^是极大似然估计量
- F − 1 ( β ^ ) F^{-1}(\hat{\beta}) F−1(β^)为Fisher信息矩阵的逆矩阵
得分统计量:
U
=
s
(
β
~
)
F
−
1
(
β
~
)
(
s
(
β
~
)
)
T
∼
a
χ
2
(
s
)
U=s(\tilde{\beta})F^{-1}(\tilde{\beta})(s(\tilde{\beta}))^T\overset{\text{a}}{\sim}\chi^2(s)
U=s(β~)F−1(β~)(s(β~))T∼aχ2(s)
- s s s为得分函数
- β ~ \tilde{\beta} β~为限制极大似然估计
- F − 1 ( β ~ ) F^{-1}(\tilde{\beta}) F−1(β~)为Fisher信息矩阵的逆矩阵在限制极大似然估计点处的值
标准化统计量:
实际应用时会经常关心模型参数的第
i
i
i分量
β
i
\beta_i
βi是否为0,如果为0,就说明响应变量与设计向量的第
i
i
i个分量没有关系,否则响应变量就与设计向量的第i个分量有关系。
H
0
:
β
i
=
0
H_0:\beta_i=0
H0:βi=0
这个假设检验问题可以使用似然比统计、Wald统计量或得分统计量来简答,但是也有更简单的统计量:
Z
i
=
β
^
i
a
i
i
Z_i=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}}
Zi=aiiβ^i
其中,
a
i
i
a_{ii}
aii为
F
(
β
^
)
)
−
1
F(\hat{\beta}))^{-1}
F(β^))−1的对角线上的第i个元素。在原假设成立的条件下,
Z
i
∼
a
N
(
0
,
1
)
Z_i\overset{\text{a}}{\sim}N(0,1)
Zi∼aN(0,1),因此用标准化统计量解答假设检验问题的p值为:
P
(
∣
Z
i
∣
≥
∣
z
i
∣
)
=
2
Φ
(
−
∣
z
i
∣
)
P(|Z_i|\geq |z_i|)=2\Phi(-|z_i|)
P(∣Zi∣≥∣zi∣)=2Φ(−∣zi∣)
当p值小于显著性水平时拒绝原假设,否则接受原假设。
(二)关于模型的拟合优度检验
皮尔逊统计量是衡量响应广义线性模型拟合效果的指标之一:
χ
2
=
∑
i
=
1
g
n
i
(
Y
i
ˉ
−
h
(
Z
(
x
i
)
β
^
)
)
V
i
−
1
(
Y
i
ˉ
−
h
(
Z
(
x
i
)
β
^
)
)
T
\chi^2=\sum_{i=1}^gn_i(\bar{Y_i}-h(Z(x_i)\hat{\beta}))V_i^{-1}(\bar{Y_i}-h(Z(x_i)\hat{\beta}))^T
χ2=i=1∑gni(Yiˉ−h(Z(xi)β^))Vi−1(Yiˉ−h(Z(xi)β^))T
其中:
Y
i
ˉ
=
1
n
i
∑
j
=
1
n
1
{
x
i
}
(
X
j
)
Y
j
\bar{Y_i}=\frac{1}{n_i}\sum_{j=1}^n1_{\{x_i\}}(X_j)Y_j
Yiˉ=ni1j=1∑n1{xi}(Xj)Yj
且:
V
i
=
d
i
a
g
(
h
(
Z
(
x
i
)
β
^
)
)
−
(
h
(
Z
(
x
i
)
β
^
)
)
T
h
(
Z
(
x
i
)
β
^
)
V_i=diag(h(Z(x_i)\hat{\beta}))-(h(Z(x_i)\hat{\beta}))^Th(Z(x_i)\hat{\beta})
Vi=diag(h(Z(xi)β^))−(h(Z(xi)β^))Th(Z(xi)β^)
在皮尔逊统计量中,
Y
k
ˉ
−
h
(
Z
(
v
k
)
β
^
)
\bar{Y_k}-h(Z(v_k)\hat{\beta})
Ykˉ−h(Z(vk)β^)是频率与概率估计值之差,
D
^
(
Y
k
ˉ
)
=
h
(
Z
(
v
k
)
β
^
)
(
1
−
h
(
Z
(
v
k
)
β
^
)
)
n
k
\hat{D}(\bar{Y_k})=\frac{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}{n_k}
D^(Ykˉ)=nkh(Z(vk)β^)(1−h(Z(vk)β^))是
D
(
Y
k
ˉ
)
D(\bar{Y_k})
D(Ykˉ)的估计值,显然:
(
Y
ˉ
k
−
h
(
Z
(
v
k
)
β
^
)
)
2
D
^
(
Y
k
ˉ
)
\frac{(\bar{Y}_k-h(Z(v_k)\hat{\beta}))^2}{\hat{D}(\bar{Y_k})}
D^(Ykˉ)(Yˉk−h(Z(vk)β^))2越小,说明用
h
(
Z
(
v
k
)
β
^
)
h(Z(v_k)\hat{\beta})
h(Z(vk)β^)估计
P
(
Y
∣
X
=
v
k
)
P(Y|X=v_k)
P(Y∣X=vk)的效果越好。因此可以用其和
χ
2
\chi^2
χ2来衡量广义线性模型的拟合效果:皮尔逊统计量
χ
2
\chi^2
χ2越小,拟合的效果越好。
对于分组数据,皮尔逊计量要求各个 n k n_k nk都很大的情况效果才会好,当 n i n_i ni很小,甚至等于1的情况,皮尔逊统计量比较模型的效果会很差。
偏差统计量:
f
t
j
=
1
n
t
∑
i
∈
{
m
:
X
m
=
x
t
}
1
{
j
}
(
Y
i
)
,
1
≤
t
≤
g
,
1
≤
j
≤
k
f_{tj}=\frac{1}{n_t}\sum_{i\in\{m:X_m=x_t\}}1_{\{j\}}(Y_i),1\leq t\leq g,1\leq j\leq k
ftj=nt1i∈{m:Xm=xt}∑1{j}(Yi),1≤t≤g,1≤j≤k
是第t样本点组中
{
Y
=
j
}
\{Y=j\}
{Y=j}的频率。记:
l
0
=
∑
t
=
1
g
(
n
t
∑
j
=
1
k
f
t
j
l
o
g
f
t
j
)
l_0=\sum_{t=1}^g(n_t\sum_{j=1}^kf_{tj}log f_{tj})
l0=t=1∑g(ntj=1∑kftjlogftj)
约定当
f
t
j
=
0
f_{tj}=0
ftj=0时
f
t
j
l
o
g
f
t
j
=
0
f_{tj}logf_{tj}=0
ftjlogftj=0。称:
D
=
2
(
l
0
−
l
(
β
^
)
)
D=2(l_0-l(\hat{\beta}))
D=2(l0−l(β^))
为广义线性模型的偏差统计量,该统计量越小,模型的拟合效果越好。
五、多响应广义线性模型的应用
(一)选择模型
- 通过假设检验问题判断变量在模型中是否有作用
- 当解释变量
W
=
(
W
1
1
{
1
}
(
Y
)
,
.
.
.
W
k
1
{
k
}
(
Y
)
)
W=(W_11_{\{1\}}(Y),...W_k1_{\{k\}}(Y))
W=(W11{1}(Y),...Wk1{k}(Y))时,即为类别解释变量,此时可以选择设计矩阵为:
Z ( X , W ) = ( 1 X W 1 − W k ⋱ ⋮ 1 X W q − W k ) Z(X,W)= \begin{pmatrix} 1 & X &&&&W_1-W_k \\ & & \ddots && & \vdots \\ &&&1&X&W_q-W_k \end{pmatrix} Z(X,W)= 1X⋱1XW1−Wk⋮Wq−Wk - 其中 X X X是与响应变量取值无关的p维解释变量,称为全局解释变量
- 参数 β = ( β 1 , . . . , β q ) \beta=(\beta_1,...,\beta_q) β=(β1,...,βq)中 β r = ( β 0 , r , β 1 , r , . . . , β p , r ) \beta_r=(\beta_{0,r},\beta_{1,r},...,\beta_{p,r}) βr=(β0,r,β1,r,...,βp,r)与类别有关,称为类别参数;参数 γ \gamma γ与类别无关,称为全局参数。
(二)次序响应变量模型
次序响应变量模型中,响应变量的分类具有次序的含义。此时可以按分类次序将响应变量编号为 1 , 2... , k 1,2...,k 1,2...,k,使得编号具有两层含义:其一是分类,其二是次序。次序能供更多的信息。
累积模型:
假设我们有一个次序分类响应变量
Y
Y
Y,其可能取值为
{
1
,
2
,
.
.
.
,
k
}
\{1,2,...,k\}
{1,2,...,k},假设存在一个潜变量
U
U
U,这个潜变量具有某种连续分布函数,并且其值被以下实数阈值所决定:
−
∞
=
θ
0
<
θ
1
<
.
.
.
<
θ
k
=
∞
-∞=\theta_0<\theta_1<...<\theta_k=∞
−∞=θ0<θ1<...<θk=∞
即,类别
Y
Y
Y是由潜变量
U
U
U和这些阈值之间的关系决定的:
Y
=
r
⟺
θ
r
−
1
<
U
≤
θ
r
Y=r\Longleftrightarrow \theta_{r-1}<U\leq \theta_r
Y=r⟺θr−1<U≤θr
对于解释变量
X
X
X,通常假设潜变量
U
=
−
X
γ
+
ϵ
U=-X\gamma+\epsilon
U=−Xγ+ϵ,其中
ϵ
\epsilon
ϵ的分布函数为
F
F
F,得:
P
(
Y
≤
r
∣
X
)
=
P
(
U
≤
θ
r
∣
X
)
=
P
(
−
X
γ
+
ϵ
≤
θ
r
)
=
p
(
ϵ
≤
θ
r
+
X
γ
)
=
F
(
θ
r
+
X
γ
)
P(Y\leq r|X)=P(U\leq \theta_r|X)=P(-X\gamma+\epsilon\leq \theta_r)=p(\epsilon\leq \theta_r+X\gamma)=F(\theta_r+X\gamma)
P(Y≤r∣X)=P(U≤θr∣X)=P(−Xγ+ϵ≤θr)=p(ϵ≤θr+Xγ)=F(θr+Xγ)
称之为累计模型。
累积逻辑回归模型:
取:
F
(
X
)
=
1
1
+
e
x
p
(
−
x
)
F(X)= \frac{1}{1+exp(-x)}
F(X)=1+exp(−x)1
即得累积逻辑回归模型:
P
(
Y
≤
r
∣
X
)
=
e
x
p
(
θ
r
+
X
γ
)
1
+
e
x
p
(
θ
r
+
X
γ
)
P(Y\leq r|X)=\frac{exp(\theta_r+X\gamma)}{1+exp(\theta_r+X\gamma)}
P(Y≤r∣X)=1+exp(θr+Xγ)exp(θr+Xγ)
它的等价表示是优势:
P
(
Y
≤
r
∣
X
)
P
(
Y
>
r
∣
X
)
=
e
x
p
(
θ
r
+
X
γ
)
\frac{P(Y\leq r|X)}{P(Y> r|X)}=exp(\theta_r+X\gamma)
P(Y>r∣X)P(Y≤r∣X)=exp(θr+Xγ)
优势比为:
P
(
Y
≤
r
∣
X
1
)
/
P
(
Y
>
r
∣
X
1
)
P
(
Y
≤
r
∣
X
2
)
/
P
(
Y
>
r
∣
X
2
)
=
e
x
p
(
(
X
1
−
X
2
)
γ
)
\frac{P(Y\leq r|X_1)/P(Y> r|X_1)}{P(Y\leq r|X_2)/P(Y> r|X_2)}=exp((X_1-X_2)\gamma)
P(Y≤r∣X2)/P(Y>r∣X2)P(Y≤r∣X1)/P(Y>r∣X1)=exp((X1−X2)γ)
分组Cox模型或比例风险模型:
取极小值分布:
F
(
X
)
=
1
−
exp
(
−
exp
(
X
)
)
F(X)=1-\exp(-\exp(X))
F(X)=1−exp(−exp(X))
模型就成为了极小值分布概率模型或chaglog模型:
P
(
Y
≤
r
∣
X
)
=
1
−
exp
(
−
e
x
p
(
θ
r
+
X
γ
)
)
P(Y\leq r|X)=1-\exp(-exp(\theta_r+X\gamma))
P(Y≤r∣X)=1−exp(−exp(θr+Xγ))
极大值分布模型:
取极大值分布:
F
(
X
)
=
exp
(
−
exp
(
−
X
)
)
F(X)=\exp(-\exp(-X))
F(X)=exp(−exp(−X))
模型就成为了极小值分布概率模型或chaglog模型:
P
(
Y
≤
r
∣
X
)
=
exp
(
−
e
x
p
(
−
(
θ
r
+
X
γ
)
)
)
P(Y\leq r|X)=\exp(-exp(-(\theta_r+X\gamma)))
P(Y≤r∣X)=exp(−exp(−(θr+Xγ)))
累计模型的响应函数:
由:
P
(
Y
=
r
∣
X
)
=
F
(
θ
r
+
X
γ
)
−
F
(
θ
r
−
1
+
X
γ
)
P(Y=r|X)=F(\theta_r+X\gamma)-F(\theta_{r-1}+X\gamma)
P(Y=r∣X)=F(θr+Xγ)−F(θr−1+Xγ)得该模型的响应函数
h
h
h的第
r
r
r分量:
h
r
(
u
)
=
F
(
u
r
)
−
F
(
u
r
−
1
)
h_r(u)=F(u_r)-F(u_{r-1})
hr(u)=F(ur)−F(ur−1)
(三)累积模型的推广
累积模型假设阈值 θ 1 , . . . , θ k \theta_1,...,\theta_k θ1,...,θk均与解释变量无关,累计模型的推广就是将其推广为假设阈值与解释变量 W W W有线性关系: θ r = β r , 0 + W β r , 1 ≤ r < k \theta_r=\beta_{r,0}+W\beta_r,1\leq r<k θr=βr,0+Wβr,1≤r<k
推广的累计模型为:
P
(
Y
≤
r
∣
x
)
=
F
(
β
r
,
0
+
W
β
r
+
X
γ
)
P(Y\leq r|x)=F(\beta_{r,0}+W\beta_r+X\gamma)
P(Y≤r∣x)=F(βr,0+Wβr+Xγ)
推广累计模型的响应函数:
由:
P
(
Y
=
r
∣
X
)
=
F
(
β
r
,
0
+
W
β
r
+
X
γ
)
−
F
(
β
r
,
0
+
W
β
r
−
1
+
X
γ
)
P(Y=r|X)=F(\beta_{r,0}+W\beta_r+X\gamma)-F(\beta_{r,0}+W\beta_{r-1}+X\gamma)
P(Y=r∣X)=F(βr,0+Wβr+Xγ)−F(βr,0+Wβr−1+Xγ)得该模型的响应函数
h
h
h的第
r
r
r分量:
h
r
(
u
)
=
F
(
u
r
)
−
F
(
u
r
−
1
)
h_r(u)=F(u_r)-F(u_{r-1})
hr(u)=F(ur)−F(ur−1)
(四)序贯模型
在许多应用中,有序响应变量是由一个序贯机制作用的结果:对于一个体,其响应值从状态1开始,依次增加。当个体进入状态r后,它可能最终停留在这个状态,也可能进入下一个状态r+1。
假设潜变量 U r = − X γ + ϵ r U_r=-X\gamma+\epsilon_r Ur=−Xγ+ϵr,其中 ϵ r \epsilon_r ϵr独立同分布,共同的分布函数为 F F F,
- 响应变量 Y Y Y的值是否滞留在状态 r r r由潜变量 U r U_r Ur刻画: Y = r ∣ Y ≥ r ⟺ U r ≤ θ r Y=r|Y\geq r\Longleftrightarrow U_r\leq \theta_r Y=r∣Y≥r⟺Ur≤θr
- 或等价地:
Y > r ∣ Y ≥ r ⟺ U r > θ r Y>r|Y\geq r\Longleftrightarrow U_r> \theta_r Y>r∣Y≥r⟺Ur>θr
这种条件事件刻画的是序贯机制:当状态到达r之后,不能退回到r-1(由所给条件所限定);状态是否能发展为r+1由潜变量U是否能大于阈值所决定。在序贯模型中,各个阈值之间没有大小关系的限制。
由潜变量的线性结构及序贯机制得到序贯模型为:
P
(
Y
=
r
∣
Y
≥
r
,
X
)
=
F
(
θ
r
+
X
γ
)
P(Y=r|Y\geq r,X)=F(\theta_r+X\gamma)
P(Y=r∣Y≥r,X)=F(θr+Xγ)
与累计模型不同,序贯模型的条件概率表明状态不可逆转。
(五)两步模型
累积模型和序贯模型都是基于响应变量的序机制建立的模型。在实际中还常见响应值可自然地分成不同的类别集合,每个集合内的值有相近的分类特征,不同集合的分类特征不相同。此时可以用两步模型拟合数据。