混合线性模型笔记1:模型假定

前言

之前的GS专栏中,我们介绍了基因组选择中的理论,实践代码,数据过滤,模型介绍等。在基因组选择中,BLUP的方法应用范围最广,BLUP是混合线性模型中随机因子的效应值,因此想要了解基因组选择,混合线性模型是基础。

因此下面几篇博文中我们将系统介绍混合线性模型的基本知识,包括模型定义,公式推导,似然函数书写,方差组分估算等内容。并通过使用编程语言(RPythonJulia)实现相关操作。

理论学习和编程语言一起学习,不亦乐乎?

1. 混合模型假定

y = X b + Z u + e y = Xb + Zu +e y=Xb+Zu+e

解释

  • y为观测值向量
  • b为固定因子效应值向量(BLUE)
  • X为固定因子关系矩阵
  • u为随机因子效应值向量(BLUP)
  • Z为随机因子关系矩阵
  • e为残差向量

假定

  • E(u) = 0 # 即BLUP值的平均值为0
  • Var(u) = G # 即BLUP值的方差为G
  • E(e)= 0 # 残差平均值为0
  • Var(e) = R # 残差方差为R
  • Cov(u,e)= 0 # 残差和BLUP相互独立,协方差为0

可以写为:
[ u e ] ∼ N ( [ 0 0 ] , [ G ( σ g ) 0 0 R ( σ γ ) ] ) \begin{bmatrix} u\\e \end{bmatrix} \sim N (\begin{bmatrix}0\\0\end{bmatrix},\begin{bmatrix} G(\sigma_g) &0\\ 0 &R(\sigma_{\gamma})\end{bmatrix}) [ue]N([00],[G(σg)00R(σγ)])

上面的意思是u和e的平均值为0,方差为G和R,协方差为0

推断
E ( y ) = E ( X b + Z u + e ) = E ( X b ) + 0 + 0 = E ( X b ) = X b E(y) = E(Xb + Zu + e) = E(Xb) + 0 + 0 = E(Xb) = Xb E(y)=E(Xb+Zu+e)=E(Xb)+0+0=E(Xb)=Xb

V a r ( y ) = V a r ( X b + Z u + e ) = V a r ( Z u ) + V a r ( e ) = Z V a r ( u ) Z ′ + R = Z G Z ′ + R Var(y) = Var(Xb + Zu + e) = Var(Zu) + Var(e) = ZVar(u)Z' + R = ZGZ' + R Var(y)=Var(Xb+Zu+e)=Var(Zu)+Var(e)=ZVar(u)Z+R=ZGZ+R

2. 固定,随机和混合模型

2.1 固定模型

所有效应都是固定效应,对应的就是没有随机效应,称为固定模型

y = X b + e y = Xb + e y=Xb+e

E ( y ) = X b E(y) = Xb E(y)=Xb
V a r ( y ) = V a r ( X b + e ) = V a r ( e ) = R Var(y) = Var(Xb + e ) = Var(e) = R Var(y)=Var(Xb+e)=Var(e)=R

2.2 随机模型

所有效应都是随机效应,对应的就是没有固定效应,称为随机模型

y = 1 μ + Z u + e y = 1\mu + Zu +e y=1μ+Zu+e

E ( y ) = 1 μ E(y) = 1\mu E(y)=1μ
V a r ( u ) = G Var(u) = G Var(u)=G
V a r ( e ) = R Var(e) = R Var(e)=R
V a r ( y ) = Z G Z ′ + R Var(y) = ZGZ' + R Var(y)=ZGZ+R

2.3 混合模型

既有固定因子,又有随机因子,称为混合模型

y = X b + Z u + e y = Xb + Zu + e y=Xb+Zu+e

E ( y ) = X b E(y) = Xb E(y)=Xb
V a r ( u ) = G Var(u) = G Var(u)=G
V a r ( e ) = R Var(e) = R Var(e)=R
V a r ( y ) = Z G Z ′ + R Var(y) = ZGZ' + R Var(y)=ZGZ+R

3. 向量计算方差公式推导

如果a是向量,y = ax, 如果var(x) = V, 那么var(y) = var(ax) = aVar(x)a’ = aVa’, 下面是具体描述

假定:
y = a ′ x y = a'x y=ax
Y = A X Y = AX Y=AX
X是随机向量,并且 V a r ( X ) = V Var(X) = V Var(X)=V,那么:
V a r ( y ) = a ′ V a r ( x ) a = a ′ V a Var(y) = a'Var(x)a = a'Va Var(y)=aVar(x)a=aVa
V a r ( Y ) = A V a r ( x ) A ′ = A V A ′ Var(Y) = AVar(x)A' = AVA' Var(Y)=AVar(x)A=AVA

4. 混合线性模型为何适合分析动植物育种数据

模型假定优势: 一般线性模型 VS 混合线性模型:

  • 一般线性模型要求数据是独立的,混合线性模型不要求,可以定义随机因子的关系矩阵A, G, H来分析相关数据
  • 一般线性模型要求数据是齐次的,混合线性模型不要求,可以定义不同水平独立残差分布,或者残差关系矩阵

动植物育种数据特点:

  • 个体间有亲缘关系,无论是IBD,还是IBS,可以通过A矩阵,G矩阵,H矩阵定义
  • 不同地点,不同场,不同年,方差分布通常不是齐次的
  • 数据经常有缺失或者数据不平衡

这些特点,使用混合线性模型非常适合分析动植物育种数据。依据混合线性模型的BLUP值进行排名,是最好的,无偏的,最佳预测的值。

5. 参考文献

张勤. 动物遗传育种中的计算方法[M]. 科学出版社, 2007.
吴密霞. 线性混合效应模型引论[M]. 科学出版社, 2013.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值