前言
之前的GS专栏中,我们介绍了基因组选择中的理论,实践代码,数据过滤,模型介绍等。在基因组选择中,BLUP的方法应用范围最广,BLUP是混合线性模型中随机因子的效应值,因此想要了解基因组选择,混合线性模型是基础。
因此下面几篇博文中我们将系统介绍混合线性模型的基本知识,包括模型定义,公式推导,似然函数书写,方差组分估算等内容。并通过使用编程语言(R
,Python
,Julia
)实现相关操作。
理论学习和编程语言一起学习,不亦乐乎?
1. 混合模型假定
y = X b + Z u + e y = Xb + Zu +e y=Xb+Zu+e
解释
- y为观测值向量
- b为固定因子效应值向量(BLUE)
- X为固定因子关系矩阵
- u为随机因子效应值向量(BLUP)
- Z为随机因子关系矩阵
- e为残差向量
假定
- E(u) = 0 # 即BLUP值的平均值为0
- Var(u) = G # 即BLUP值的方差为G
- E(e)= 0 # 残差平均值为0
- Var(e) = R # 残差方差为R
- Cov(u,e)= 0 # 残差和BLUP相互独立,协方差为0
可以写为:
[
u
e
]
∼
N
(
[
0
0
]
,
[
G
(
σ
g
)
0
0
R
(
σ
γ
)
]
)
\begin{bmatrix} u\\e \end{bmatrix} \sim N (\begin{bmatrix}0\\0\end{bmatrix},\begin{bmatrix} G(\sigma_g) &0\\ 0 &R(\sigma_{\gamma})\end{bmatrix})
[ue]∼N([00],[G(σg)00R(σγ)])
上面的意思是u和e的平均值为0,方差为G和R,协方差为0
推断
E
(
y
)
=
E
(
X
b
+
Z
u
+
e
)
=
E
(
X
b
)
+
0
+
0
=
E
(
X
b
)
=
X
b
E(y) = E(Xb + Zu + e) = E(Xb) + 0 + 0 = E(Xb) = Xb
E(y)=E(Xb+Zu+e)=E(Xb)+0+0=E(Xb)=Xb
V a r ( y ) = V a r ( X b + Z u + e ) = V a r ( Z u ) + V a r ( e ) = Z V a r ( u ) Z ′ + R = Z G Z ′ + R Var(y) = Var(Xb + Zu + e) = Var(Zu) + Var(e) = ZVar(u)Z' + R = ZGZ' + R Var(y)=Var(Xb+Zu+e)=Var(Zu)+Var(e)=ZVar(u)Z′+R=ZGZ′+R
2. 固定,随机和混合模型
2.1 固定模型
所有效应都是固定效应,对应的就是没有随机效应,称为固定模型
y = X b + e y = Xb + e y=Xb+e
E
(
y
)
=
X
b
E(y) = Xb
E(y)=Xb
V
a
r
(
y
)
=
V
a
r
(
X
b
+
e
)
=
V
a
r
(
e
)
=
R
Var(y) = Var(Xb + e ) = Var(e) = R
Var(y)=Var(Xb+e)=Var(e)=R
2.2 随机模型
所有效应都是随机效应,对应的就是没有固定效应,称为随机模型
y = 1 μ + Z u + e y = 1\mu + Zu +e y=1μ+Zu+e
E
(
y
)
=
1
μ
E(y) = 1\mu
E(y)=1μ
V
a
r
(
u
)
=
G
Var(u) = G
Var(u)=G
V
a
r
(
e
)
=
R
Var(e) = R
Var(e)=R
V
a
r
(
y
)
=
Z
G
Z
′
+
R
Var(y) = ZGZ' + R
Var(y)=ZGZ′+R
2.3 混合模型
既有固定因子,又有随机因子,称为混合模型
y = X b + Z u + e y = Xb + Zu + e y=Xb+Zu+e
E
(
y
)
=
X
b
E(y) = Xb
E(y)=Xb
V
a
r
(
u
)
=
G
Var(u) = G
Var(u)=G
V
a
r
(
e
)
=
R
Var(e) = R
Var(e)=R
V
a
r
(
y
)
=
Z
G
Z
′
+
R
Var(y) = ZGZ' + R
Var(y)=ZGZ′+R
3. 向量计算方差公式推导
如果a是向量,y = ax, 如果var(x) = V, 那么var(y) = var(ax) = aVar(x)a’ = aVa’, 下面是具体描述
假定:
y
=
a
′
x
y = a'x
y=a′x
Y
=
A
X
Y = AX
Y=AX
X是随机向量,并且
V
a
r
(
X
)
=
V
Var(X) = V
Var(X)=V,那么:
V
a
r
(
y
)
=
a
′
V
a
r
(
x
)
a
=
a
′
V
a
Var(y) = a'Var(x)a = a'Va
Var(y)=a′Var(x)a=a′Va
V
a
r
(
Y
)
=
A
V
a
r
(
x
)
A
′
=
A
V
A
′
Var(Y) = AVar(x)A' = AVA'
Var(Y)=AVar(x)A′=AVA′
4. 混合线性模型为何适合分析动植物育种数据
模型假定优势: 一般线性模型 VS 混合线性模型:
- 一般线性模型要求数据是独立的,混合线性模型不要求,可以定义随机因子的关系矩阵A, G, H来分析相关数据
- 一般线性模型要求数据是齐次的,混合线性模型不要求,可以定义不同水平独立残差分布,或者残差关系矩阵
动植物育种数据特点:
- 个体间有亲缘关系,无论是IBD,还是IBS,可以通过A矩阵,G矩阵,H矩阵定义
- 不同地点,不同场,不同年,方差分布通常不是齐次的
- 数据经常有缺失或者数据不平衡
这些特点,使用混合线性模型非常适合分析动植物育种数据。依据混合线性模型的BLUP值进行排名,是最好的,无偏的,最佳预测的值。
5. 参考文献
张勤. 动物遗传育种中的计算方法[M]. 科学出版社, 2007.
吴密霞. 线性混合效应模型引论[M]. 科学出版社, 2013.