随着遗传学、育种学的不断发展和人类基因组计划和分子生物学的日益发展,生物学数据在短短的几十年里得到了爆发式地增长。比如生物信息学里面的:回归分析、随机森林、支持向量机等算法,都是比较成熟的应用了。那今天本文,就给大家剖析一下当生物信息遇见机器学习,会有什么火花。
那开始讲生物信息与机器学习之前,我们要先阐述几个概念:
1. 什么是生物信息学的数据
2. 什么是GWAS
什么是生物信息学的数据
研究的数据类型,可以根据术手段分为基因型数据(GenoType Data)、表达量数据等;那其中基因型数据则是通过WGS、WES、基因芯片数据获得的。
而基因型数据的内部是有关联性的。而基因型数据间存在一定的关联性是由遗传学第三定律中连锁定律造成的;而基因型数据可以将数据理解为{0,1,2}(分别表示:野生型纯合、杂合、突变型纯合)。
位点之间如果充分杂交(换到医学研究中则是经过经历多世代),会达到连锁平衡状态。但是事实上,由于人口分层和其他因素,不存在完全独立的位,那么位点间存在着连锁不平衡现象(LD)。
某类疾病本质上是由于DNA突变造成了蛋白结构发生了改变,这类突变可能随机发生在一个基因区间上。某两个突变虽然没有遗传学上的联系,可能造成同一后果。因此可以以基因为单位作为观察对象,例如负荷检验(SNP Burden Test)。
对于RNA分子转录水平、蛋白表达量、代谢相关分子的定量等,也因为生物体本身的代谢调控的复杂性,造成变量内部会存在一定的相关性。例如某一转录调控因子基因转录水平增高,会引起一系列相关基因的转录水平升高。
而且基因型数据还具备高通量性。<