应用广义线性模型三|多响应广义线性模型

系列文章目录


如果响应变量是多水平的分类变量,建模时不能将这类响应变量处理成取多个不同值的单变量,而应将其按照哑变量编码,结果形成二维响应变量。

一、多响应变量模型

多响应变量:
分类变量 Y Y Y的量化方法是将其k个类别量化为整数1到k,这样Y就形式上称为取值为 { 1 , . . . , k } \{1,...,k\} {1,...,k}的数值变量,称之为多响应变量,或整值响应变量。但是Y的不同值之间的加减乘除运算没有实际意义,因此在已知X的情况下Y的概率加权平均就没有实际意义,即 E ( Y ∣ X ) E(Y|X) E(YX)没有实际意义。

q = k − 1 q=k-1 q=k1,就可以将Y量化为哑变量编码: Y = ( 1 { 类 1 } ( Y ) , . . . , 1 { 类 q } ( Y ) ) Y=(1_{\{类1\}}(Y),...,1_{\{类q\}}(Y)) Y=(1{1}(Y),...,1{q}(Y)),称这个向量为多响应向量,或哑值响应变量,第k分类为参考类。
E ( Y ∣ X ) = ( E ( 1 { 类 1 } ( Y ) ∣ X ) , . . . , E ( 1 { 类 q } ( Y ) ∣ X ) ) = ( P ( Y = 1 ∣ X ) , . . . , P ( Y = q ∣ X ) ) \begin{aligned} E(Y|X)=&(E(1_{\{类1\}}(Y)|X),...,E(1_{\{类q\}}(Y)|X))\\ =&(P(Y=1|X),...,P(Y=q|X)) \end{aligned} E(YX)==(E(1{1}(Y)X),...,E(1{q}(Y)X))(P(Y=1∣X),...,P(Y=qX))

E ( Y ∣ X ) E(Y|X) E(YX)唯一决定Y的条件密度,即其刻画了在已知X情况下Y的随机变化规律。

多响应广义线性模型:
多响应广义线性模型,简称多响应模型, Z = Z ( X ) Z=Z(X) Z=Z(X)为多响应模型的设计向量, β \beta β为模型参数, h h h为响应函数。
E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()

若Y与解释变量X有关系,则他的条件期望就应该与X有关系,即存在(可逆)映射:
h ( η ) = ( h 1 ( η ) , . . . , h q ( η ) ) h(\eta)=(h_1(\eta),...,h_q(\eta)) h(η)=(h1(η),...,hq(η))
当响应函数 h h h可逆时, g = h − 1 g=h^{-1} g=h1为连接函数,进而可以将多响应广义线性模型表示为:
g ( E ( Y ∣ X ) ) = Z β g(E(Y|X))=Z\beta g(E(YX))=

多响应逻辑回归模型:
当响应函数 h h h的第 r r r分量为:
h r ( s 1 , . . . s q ) = e x p ( s r ) 1 + ∑ j = 1 q e x p ( s j ) , 1 ≤ r ≤ q h_r(s_1,...s_q)=\frac{exp(s_r)}{1+\sum_{j=1}^qexp(s_j)},1\leq r\leq q hr(s1,...sq)=1+j=1qexp(sj)exp(sr),1rq
模型即为多响应逻辑回归模型。

二、多响应分布及简单性质

对于k分类响应变量Y,记: π = ( π 1 , . . . , π q ) , π i = P ( Y = i ) , 1 ≤ i ≤ q = k − 1 \pi=(\pi_1,...,\pi_q),\pi_i=P(Y=i),1\leq i \leq q=k-1 π=(π1,...,πq),πi=P(Y=i),1iq=k1,则Y的哑变量编码Y服从多响应分布,其密度为:
P ( Y = ( y 1 , . . . , y q ) ) = ( 1 − ∑ k = 1 q π k ) 1 − ∑ k = 1 q y k ∏ i = 1 q π i y i P(Y=(y_1,...,y_q))=(1-\sum_{k=1}^q\pi_k)^{1-\sum_{k=1}^qy_k}\prod_{i=1}^q\pi_i^{y_i} P(Y=(y1,...,yq))=(1k=1qπk)1k=1qyki=1qπiyi
多响应向量Y的数学期望和方差矩阵:
E ( Y ) = π E(Y)=\pi E(Y)=π
又由哑变量编码结构知Y的分量为0或1,且至多只有一个分量为1,因此: Y T Y = d i a g ( Y ) Y^TY=diag(Y) YTY=diag(Y),进而有:
V a r ( Y ) = E ( Y T Y ) − ( E ( Y ) ) T E ( Y ) = d i a g ( π ) − π T π Var(Y)=E(Y^TY)-(E(Y))^TE(Y)=diag(\pi)-\pi^T\pi Var(Y)=E(YTY)(E(Y))TE(Y)=diag(π)πTπ

三、模型参数的极大似然估计

对于来自多响应广义线性模型的独立观测样本 ( X i , Y i ) , 1 ≤ i ≤ n (X_i,Y_i),1\leq i\leq n (Xi,Yi),1in,则:
( π 1 ( X i ) , π 2 ( X i ) , . . . , π q ( X i ) ) = E ( Y i ∣ X i ) = h ( Z i β ) (\pi_1(X_i),\pi_2(X_i),...,\pi_q(X_i))=E(Y_i|X_i)=h(Z_i\beta) (π1(Xi),π2(Xi),...,πq(Xi))=E(YiXi)=h(Ziβ)
且有:
P ( Y i = ( y 1 , . . . , y q ) ∣ X i ) = ( 1 − ∑ k = 1 q π k ( X i ) ) 1 − ∑ k = 1 q y k ∏ k = 1 q ( π k ( X i ) ) y i = ( 1 − ∑ k = 1 q h k ( Z i β ) 1 − ∑ k = 1 q y k ∏ k = 1 q ( h k ( Z i β ) ) y i \begin{aligned} P(Y_i=(y_1,...,y_q)|X_i)=&(1-\sum_{k=1}^q\pi_k(X_i))^{1-\sum_{k=1}^qy_k}\prod_{k=1}^q(\pi_k(X_i))^{y_i}\\ =&(1-\sum_{k=1}^qh_k(Z_i\beta)^{1-\sum_{k=1}^qy_k}\prod_{k=1}^q(h_k(Z_i\beta))^{y_i} \end{aligned} P(Yi=(y1,...,yq)Xi)==(1k=1qπk(Xi))1k=1qykk=1q(πk(Xi))yi(1k=1qhk(Ziβ)1k=1qykk=1q(hk(Ziβ))yi

因此第i观测的似然函数为:
L i ( β ) = ( 1 − ∑ k = 1 q h k ( Z i β ) 1 − ∑ k = 1 q Y k ∏ k = 1 q ( h k ( Z i β ) ) Y k L_i(\beta)=(1-\sum_{k=1}^qh_k(Z_i\beta)^{1-\sum_{k=1}^qY_k}\prod_{k=1}^q(h_k(Z_i\beta))^{Y_k} Li(β)=(1k=1qhk(Ziβ)1k=1qYkk=1q(hk(Ziβ))Yk

得分函数用于评估参数估计的好坏:
假设我们有一个参数为向量 θ \theta θ的模型,它对分布 p ( x ∣ θ ) p(x|\theta) p(xθ)建模。在频率派统计学中,学习 θ \theta θ的方法是最大化 p ( x ∣ θ ) p(x|\theta) p(xθ)与参数 θ \theta θ的似然。为了评估我们对 θ \theta θ估计的好坏,定义了评分函数:(对数似然函数的梯度)
s ( θ ) = ∇ θ log ⁡ p ( x ∣ θ ) s(\theta)=\nabla_\theta \log p(x|\theta) s(θ)=θlogp(xθ)
Fisher信息矩阵用于评估对于估计值的把握:
围绕估计值的期望,根据模型评分的协方差定义一个不确定性度量:
E p ( x ∣ θ ) [ ( s ( θ ) − 0 ) ( s ( θ ) − 0 ) T ] = E p ( x ∣ θ ) [ ∇ log ⁡ p ( x ∣ θ ) ∇ log ⁡ p ( x ∣ θ ) T ] E_{p(x|\theta)}[(s(\theta)-0)(s(\theta)-0)^T]=E_{p(x|\theta)}[\nabla \log p(x|\theta)\nabla \log p(x|\theta)^T] Ep(xθ)[(s(θ)0)(s(θ)0)T]=Ep(xθ)[logp(xθ)logp(xθ)T]

四、多响应模型的假设检验

(一)关于模型参数的假设检验

多响应模型中模型参数的假设检验问题: H 0 : C β = ξ H_0:C\beta=\xi H0:=ξ

  • C C C是已知的 s × t s\times t s×t行满秩矩阵,称为限制矩阵
  • ξ \xi ξ为已知的s维列向量,称为限制向量
  • β = ( β 1 , . . . , β t ) T \beta=(\beta_1,...,\beta_t)^T β=(β1,...,βt)T是模型参数

在一般条件下模型参数的极大似然估计:
β ^ ∼ a N ( β , F − 1 ( β ^ ) ) \hat{\beta}\overset{\text{a}}{\sim}N(\beta,F^{-1}(\hat{\beta})) β^aN(β,F1(β^))

对数似然比统计量:
λ = − 2 ( l ( β ~ − ( β ^ ) ) ∼ a χ 2 ( s ) \lambda=-2(l(\tilde{\beta}-(\hat{\beta}))\overset{\text{a}}{\sim}\chi^2(s) λ=2(l(β~(β^))aχ2(s)

Wald统计量:
Wald统计量为 C β ^ C\hat{\beta} Cβ^ C β = ξ C\beta=\xi =ξ之间距离的加权平均:
W = ( C β ^ − ξ ) T ( C ( F ( β ^ ) ) − 1 C T ) − 1 ( C β ^ − ξ ) ∼ a χ 2 ( s ) W=(C\hat{\beta}-\xi)^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}(C\hat{\beta}-\xi)\overset{\text{a}}{\sim}\chi^2(s) W=(Cβ^ξ)T(C(F(β^))1CT)1(Cβ^ξ)aχ2(s

  • β ^ \hat{\beta} β^是极大似然估计量
  • F − 1 ( β ^ ) F^{-1}(\hat{\beta}) F1(β^)为Fisher信息矩阵的逆矩阵

得分统计量:
U = s ( β ~ ) F − 1 ( β ~ ) ( s ( β ~ ) ) T ∼ a χ 2 ( s ) U=s(\tilde{\beta})F^{-1}(\tilde{\beta})(s(\tilde{\beta}))^T\overset{\text{a}}{\sim}\chi^2(s) U=s(β~)F1(β~)(s(β~))Taχ2(s

  • s s s为得分函数
  • β ~ \tilde{\beta} β~为限制极大似然估计
  • F − 1 ( β ~ ) F^{-1}(\tilde{\beta}) F1(β~)为Fisher信息矩阵的逆矩阵在限制极大似然估计点处的值

标准化统计量:
实际应用时会经常关心模型参数的第 i i i分量 β i \beta_i βi是否为0,如果为0,就说明响应变量与设计向量的第 i i i个分量没有关系,否则响应变量就与设计向量的第i个分量有关系。
H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0
这个假设检验问题可以使用似然比统计、Wald统计量或得分统计量来简答,但是也有更简单的统计量:
Z i = β ^ i a i i Z_i=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}} Zi=aii β^i
其中, a i i a_{ii} aii F ( β ^ ) ) − 1 F(\hat{\beta}))^{-1} F(β^))1的对角线上的第i个元素。在原假设成立的条件下, Z i ∼ a N ( 0 , 1 ) Z_i\overset{\text{a}}{\sim}N(0,1) ZiaN(0,1),因此用标准化统计量解答假设检验问题的p值为:
P ( ∣ Z i ∣ ≥ ∣ z i ∣ ) = 2 Φ ( − ∣ z i ∣ ) P(|Z_i|\geq |z_i|)=2\Phi(-|z_i|) P(Zizi)=(zi)
当p值小于显著性水平时拒绝原假设,否则接受原假设。

(二)关于模型的拟合优度检验

皮尔逊统计量是衡量响应广义线性模型拟合效果的指标之一:
χ 2 = ∑ i = 1 g n i ( Y i ˉ − h ( Z ( x i ) β ^ ) ) V i − 1 ( Y i ˉ − h ( Z ( x i ) β ^ ) ) T \chi^2=\sum_{i=1}^gn_i(\bar{Y_i}-h(Z(x_i)\hat{\beta}))V_i^{-1}(\bar{Y_i}-h(Z(x_i)\hat{\beta}))^T χ2=i=1gni(Yiˉh(Z(xi)β^))Vi1(Yiˉh(Z(xi)β^))T
其中:
Y i ˉ = 1 n i ∑ j = 1 n 1 { x i } ( X j ) Y j \bar{Y_i}=\frac{1}{n_i}\sum_{j=1}^n1_{\{x_i\}}(X_j)Y_j Yiˉ=ni1j=1n1{xi}(Xj)Yj
且:
V i = d i a g ( h ( Z ( x i ) β ^ ) ) − ( h ( Z ( x i ) β ^ ) ) T h ( Z ( x i ) β ^ ) V_i=diag(h(Z(x_i)\hat{\beta}))-(h(Z(x_i)\hat{\beta}))^Th(Z(x_i)\hat{\beta}) Vi=diag(h(Z(xi)β^))(h(Z(xi)β^))Th(Z(xi)β^)
在皮尔逊统计量中, Y k ˉ − h ( Z ( v k ) β ^ ) \bar{Y_k}-h(Z(v_k)\hat{\beta}) Ykˉh(Z(vk)β^)是频率与概率估计值之差, D ^ ( Y k ˉ ) = h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) n k \hat{D}(\bar{Y_k})=\frac{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}{n_k} D^(Ykˉ)=nkh(Z(vk)β^)(1h(Z(vk)β^)) D ( Y k ˉ ) D(\bar{Y_k}) D(Ykˉ)的估计值,显然: ( Y ˉ k − h ( Z ( v k ) β ^ ) ) 2 D ^ ( Y k ˉ ) \frac{(\bar{Y}_k-h(Z(v_k)\hat{\beta}))^2}{\hat{D}(\bar{Y_k})} D^(Ykˉ)(Yˉkh(Z(vk)β^))2越小,说明用 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk)β^)估计 P ( Y ∣ X = v k ) P(Y|X=v_k) P(YX=vk)的效果越好。因此可以用其和 χ 2 \chi^2 χ2来衡量广义线性模型的拟合效果:皮尔逊统计量 χ 2 \chi^2 χ2越小,拟合的效果越好。

对于分组数据,皮尔逊计量要求各个 n k n_k nk都很大的情况效果才会好,当 n i n_i ni很小,甚至等于1的情况,皮尔逊统计量比较模型的效果会很差。

偏差统计量:
f t j = 1 n t ∑ i ∈ { m : X m = x t } 1 { j } ( Y i ) , 1 ≤ t ≤ g , 1 ≤ j ≤ k f_{tj}=\frac{1}{n_t}\sum_{i\in\{m:X_m=x_t\}}1_{\{j\}}(Y_i),1\leq t\leq g,1\leq j\leq k ftj=nt1i{m:Xm=xt}1{j}(Yi),1tg,1jk
是第t样本点组中 { Y = j } \{Y=j\} {Y=j}的频率。记:
l 0 = ∑ t = 1 g ( n t ∑ j = 1 k f t j l o g f t j ) l_0=\sum_{t=1}^g(n_t\sum_{j=1}^kf_{tj}log f_{tj}) l0=t=1g(ntj=1kftjlogftj)
约定当 f t j = 0 f_{tj}=0 ftj=0 f t j l o g f t j = 0 f_{tj}logf_{tj}=0 ftjlogftj=0。称:
D = 2 ( l 0 − l ( β ^ ) ) D=2(l_0-l(\hat{\beta})) D=2(l0l(β^))
为广义线性模型的偏差统计量,该统计量越小,模型的拟合效果越好。

五、多响应广义线性模型的应用

(一)选择模型

  • 通过假设检验问题判断变量在模型中是否有作用
  • 当解释变量 W = ( W 1 1 { 1 } ( Y ) , . . . W k 1 { k } ( Y ) ) W=(W_11_{\{1\}}(Y),...W_k1_{\{k\}}(Y)) W=(W11{1}(Y),...Wk1{k}(Y))时,即为类别解释变量,此时可以选择设计矩阵为:
    Z ( X , W ) = ( 1 X W 1 − W k ⋱ ⋮ 1 X W q − W k ) Z(X,W)= \begin{pmatrix} 1 & X &&&&W_1-W_k \\ & & \ddots && & \vdots \\ &&&1&X&W_q-W_k \end{pmatrix} Z(X,W)= 1X1XW1WkWqWk
    • 其中 X X X是与响应变量取值无关的p维解释变量,称为全局解释变量
    • 参数 β = ( β 1 , . . . , β q ) \beta=(\beta_1,...,\beta_q) β=(β1,...,βq) β r = ( β 0 , r , β 1 , r , . . . , β p , r ) \beta_r=(\beta_{0,r},\beta_{1,r},...,\beta_{p,r}) βr=(β0,r,β1,r,...,βp,r)与类别有关,称为类别参数;参数 γ \gamma γ与类别无关,称为全局参数。

(二)次序响应变量模型

次序响应变量模型中,响应变量的分类具有次序的含义。此时可以按分类次序将响应变量编号为 1 , 2... , k 1,2...,k 1,2...,k,使得编号具有两层含义:其一是分类,其二是次序。次序能供更多的信息。

累积模型:
假设我们有一个次序分类响应变量 Y Y Y,其可能取值为 { 1 , 2 , . . . , k } \{1,2,...,k\} {1,2,...,k},假设存在一个潜变量 U U U,这个潜变量具有某种连续分布函数,并且其值被以下实数阈值所决定:
− ∞ = θ 0 < θ 1 < . . . < θ k = ∞ -∞=\theta_0<\theta_1<...<\theta_k=∞ =θ0<θ1<...<θk=
即,类别 Y Y Y是由潜变量 U U U和这些阈值之间的关系决定的:
Y = r ⟺ θ r − 1 < U ≤ θ r Y=r\Longleftrightarrow \theta_{r-1}<U\leq \theta_r Y=rθr1<Uθr
对于解释变量 X X X,通常假设潜变量 U = − X γ + ϵ U=-X\gamma+\epsilon U=Xγ+ϵ,其中 ϵ \epsilon ϵ的分布函数为 F F F,得:
P ( Y ≤ r ∣ X ) = P ( U ≤ θ r ∣ X ) = P ( − X γ + ϵ ≤ θ r ) = p ( ϵ ≤ θ r + X γ ) = F ( θ r + X γ ) P(Y\leq r|X)=P(U\leq \theta_r|X)=P(-X\gamma+\epsilon\leq \theta_r)=p(\epsilon\leq \theta_r+X\gamma)=F(\theta_r+X\gamma) P(YrX)=P(UθrX)=P(Xγ+ϵθr)=p(ϵθr+Xγ)=F(θr+Xγ)
称之为累计模型。

累积逻辑回归模型:
取:
F ( X ) = 1 1 + e x p ( − x ) F(X)= \frac{1}{1+exp(-x)} F(X)=1+exp(x)1
即得累积逻辑回归模型:
P ( Y ≤ r ∣ X ) = e x p ( θ r + X γ ) 1 + e x p ( θ r + X γ ) P(Y\leq r|X)=\frac{exp(\theta_r+X\gamma)}{1+exp(\theta_r+X\gamma)} P(YrX)=1+exp(θr+Xγ)exp(θr+Xγ)
它的等价表示是优势:
P ( Y ≤ r ∣ X ) P ( Y > r ∣ X ) = e x p ( θ r + X γ ) \frac{P(Y\leq r|X)}{P(Y> r|X)}=exp(\theta_r+X\gamma) P(Y>rX)P(YrX)=exp(θr+Xγ)
优势比为:
P ( Y ≤ r ∣ X 1 ) / P ( Y > r ∣ X 1 ) P ( Y ≤ r ∣ X 2 ) / P ( Y > r ∣ X 2 ) = e x p ( ( X 1 − X 2 ) γ ) \frac{P(Y\leq r|X_1)/P(Y> r|X_1)}{P(Y\leq r|X_2)/P(Y> r|X_2)}=exp((X_1-X_2)\gamma) P(YrX2)/P(Y>rX2)P(YrX1)/P(Y>rX1)=exp((X1X2)γ)

分组Cox模型或比例风险模型:
取极小值分布:
F ( X ) = 1 − exp ⁡ ( − exp ⁡ ( X ) ) F(X)=1-\exp(-\exp(X)) F(X)=1exp(exp(X))
模型就成为了极小值分布概率模型或chaglog模型:
P ( Y ≤ r ∣ X ) = 1 − exp ⁡ ( − e x p ( θ r + X γ ) ) P(Y\leq r|X)=1-\exp(-exp(\theta_r+X\gamma)) P(YrX)=1exp(exp(θr+Xγ))

极大值分布模型:
取极大值分布:
F ( X ) = exp ⁡ ( − exp ⁡ ( − X ) ) F(X)=\exp(-\exp(-X)) F(X)=exp(exp(X))
模型就成为了极小值分布概率模型或chaglog模型:
P ( Y ≤ r ∣ X ) = exp ⁡ ( − e x p ( − ( θ r + X γ ) ) ) P(Y\leq r|X)=\exp(-exp(-(\theta_r+X\gamma))) P(YrX)=exp(exp((θr+Xγ)))

累计模型的响应函数:
由: P ( Y = r ∣ X ) = F ( θ r + X γ ) − F ( θ r − 1 + X γ ) P(Y=r|X)=F(\theta_r+X\gamma)-F(\theta_{r-1}+X\gamma) P(Y=rX)=F(θr+Xγ)F(θr1+Xγ)得该模型的响应函数 h h h的第 r r r分量:
h r ( u ) = F ( u r ) − F ( u r − 1 ) h_r(u)=F(u_r)-F(u_{r-1}) hr(u)=F(ur)F(ur1)

(三)累积模型的推广

累积模型假设阈值 θ 1 , . . . , θ k \theta_1,...,\theta_k θ1,...,θk均与解释变量无关,累计模型的推广就是将其推广为假设阈值与解释变量 W W W有线性关系: θ r = β r , 0 + W β r , 1 ≤ r < k \theta_r=\beta_{r,0}+W\beta_r,1\leq r<k θr=βr,0+Wβr,1r<k

推广的累计模型为:
P ( Y ≤ r ∣ x ) = F ( β r , 0 + W β r + X γ ) P(Y\leq r|x)=F(\beta_{r,0}+W\beta_r+X\gamma) P(Yrx)=F(βr,0+Wβr+Xγ)

推广累计模型的响应函数:
由: P ( Y = r ∣ X ) = F ( β r , 0 + W β r + X γ ) − F ( β r , 0 + W β r − 1 + X γ ) P(Y=r|X)=F(\beta_{r,0}+W\beta_r+X\gamma)-F(\beta_{r,0}+W\beta_{r-1}+X\gamma) P(Y=rX)=F(βr,0+Wβr+Xγ)F(βr,0+Wβr1+Xγ)得该模型的响应函数 h h h的第 r r r分量:
h r ( u ) = F ( u r ) − F ( u r − 1 ) h_r(u)=F(u_r)-F(u_{r-1}) hr(u)=F(ur)F(ur1)

(四)序贯模型

在许多应用中,有序响应变量是由一个序贯机制作用的结果:对于一个体,其响应值从状态1开始,依次增加。当个体进入状态r后,它可能最终停留在这个状态,也可能进入下一个状态r+1。

假设潜变量 U r = − X γ + ϵ r U_r=-X\gamma+\epsilon_r Ur=Xγ+ϵr,其中 ϵ r \epsilon_r ϵr独立同分布,共同的分布函数为 F F F

  • 响应变量 Y Y Y的值是否滞留在状态 r r r由潜变量 U r U_r Ur刻画: Y = r ∣ Y ≥ r ⟺ U r ≤ θ r Y=r|Y\geq r\Longleftrightarrow U_r\leq \theta_r Y=rYrUrθr
  • 或等价地:
    Y > r ∣ Y ≥ r ⟺ U r > θ r Y>r|Y\geq r\Longleftrightarrow U_r> \theta_r Y>rYrUr>θr

这种条件事件刻画的是序贯机制:当状态到达r之后,不能退回到r-1(由所给条件所限定);状态是否能发展为r+1由潜变量U是否能大于阈值所决定。在序贯模型中,各个阈值之间没有大小关系的限制。

由潜变量的线性结构及序贯机制得到序贯模型为:
P ( Y = r ∣ Y ≥ r , X ) = F ( θ r + X γ ) P(Y=r|Y\geq r,X)=F(\theta_r+X\gamma) P(Y=rYr,X)=F(θr+Xγ)
与累计模型不同,序贯模型的条件概率表明状态不可逆转。

(五)两步模型

累积模型和序贯模型都是基于响应变量的序机制建立的模型。在实际中还常见响应值可自然地分成不同的类别集合,每个集合内的值有相近的分类特征,不同集合的分类特征不相同。此时可以用两步模型拟合数据。

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值