当生物信息遇见机器学习

随着遗传学、育种学的不断发展和人类基因组计划和分子生物学的日益发展,生物学数据在短短的几十年里得到了爆发式地增长。比如生物信息学里面的:回归分析、随机森林、支持向量机等算法,都是比较成熟的应用了。那今天本文,就给大家剖析一下当生物信息遇见机器学习,会有什么火花。

那开始讲生物信息与机器学习之前,我们要先阐述几个概念:

1. 什么是生物信息学的数据

2. 什么是GWAS

什么是生物信息学的数据

研究的数据类型,可以根据术手段分为基因型数据(GenoType Data)、表达量数据等;那其中基因型数据则是通过WGS、WES、基因芯片数据获得的。

而基因型数据的内部是有关联性的。而基因型数据间存在一定的关联性是由遗传学第三定律中连锁定律造成的;而基因型数据可以将数据理解为{0,1,2}(分别表示:野生型纯合、杂合、突变型纯合)。

位点之间如果充分杂交(换到医学研究中则是经过经历多世代),会达到连锁平衡状态。但是事实上,由于人口分层和其他因素,不存在完全独立的位,那么位点间存在着连锁不平衡现象(LD)。

某类疾病本质上是由于DNA突变造成了蛋白结构发生了改变,这类突变可能随机发生在一个基因区间上。某两个突变虽然没有遗传学上的联系,可能造成同一后果。因此可以以基因为单位作为观察对象,例如负荷检验(SNP Burden Test)。

对于RNA分子转录水平、蛋白表达量、代谢相关分子的定量等,也因为生物体本身的代谢调控的复杂性,造成变量内部会存在一定的相关性。例如某一转录调控因子基因转录水平增高,会引起一系列相关基因的转录水平升高。

而且基因型数据还具备高通量性。<

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值