《生物信息学:导论与方法》--研究案例1-新基因起源--听课笔记(二十三)

第十一章  研究案例1-新基因起源

11.1 新基因鉴定及演化分析-概念与实例

  • Manyuan Long, ph.D. 将介绍生物学背景问题,以及如何把实验方法和计算方法结合来研究新基因起源和演化的问题。
  • 目前的生物医学研究在一种剧烈的“范式转移”当中,paradigm。
  • paradigm:指作为一种科学研究,它的基本做法和基本概念以及基本的逻辑现在正在发生剧烈的转折改变。
  • 生物医学改变的特征是以基因组技术为基本资料库的方式,因此,它所创造的资料是天文学一般的海量资料库,因此,生物信息学研究变得必不可少。
  • 新基因的起源和演化是生物研究中最基本的问题之一。
  • 在新物种中发现了一个基因,那么这可能是在物种演化新产生的基因,也可能是很多年前消失的一个基因,现在又出现了……这是一个基因起源事件?还是一个基因消失事件呢?
  • 演化科学发明了一个基本原理:parsimony principle(节俭原理),如果有不同的假说,一种假说认定它是新基因,在S1和S2中起源;另一种假说是它在S3,S4中丢失,这两种对立的假说。要检查哪一种假说更有可能?就要研究每个假说要涉及到的最少的事件数。如果它是最小事件数越多,它就越不可能;如果它是最小事件数越小,就越可能。
  • 鉴定假说的时候,只有假定所有事件最少的时候,是最可能的。
  • 感觉就是比如说有10个物种,现在在2个物种中发现了一个新的基因,假说1:在2个物种中新基因起源;假说2:在8个物种中丢失了这个基因。明显,假说1的概率更大。
  • 综述:Mechanisms of New Gene Origination大概有11种分子机制可导致基因变异。
  • 这小节讲的的确很精彩。
  • A new gene is a gene that originated recently in a genome and can be identified by syntenic alignment of genomic sequences from a group of closely species.
  • A number of molecular mechanisms can generate new genes and more than one mechanism can be involved in making one new gene.
  • New genes can be biologically important as old or ancient genes. In fruitflies, essential functions can evolve rapidly any time in evolution.

11.2 新基因鉴定及演化分析-大脑演化的驱动力

  • 人的大脑的演化伴随着新基因的起源,而且起源的速度很快。
  • 新基因一旦在人的大脑中表达,它首先是表达在人的大脑皮层。而人和老鼠最大的不一样,就是人有大脑皮层,老鼠没有。
  • 很多新基因,特别是那些人类特有的新基因,也就是黑猩猩所没有的基因,它们通常在我们的前额叶和我们颞页中表达,因此我们的大脑结构由于基因的产生,它们发生演化。演化的结果是,认知功能同时得以演化和产生。

11.3 一个与成瘾相关的人类特异的从头起源的新基因

  • 先确定想做的事,然后再选择合适的数据库或者工具。

11.4 从非编码RNA起源的从头起源新基因

  • 如何确认收集到的基因在其他的物种是没有完整的读码框的?
  • 在任何一个物种没有看到一个基因或蛋白,首先要想它是真的在这个物种没有,还是因为目前的基因组测序或者蛋白组学的覆盖还不够全。
  • 演化生物学是贯穿整个生命科学的重要支柱。
  • Bioinformatic methods and analyses can play key roles in evolutionary biology.
  1. Identify interesting novel candidates at genome scale
  2. Discover genome-wide patterns
  3. Discover cross-species patterns

11.5 学生课堂报告----系统发生估计

  • 系统发生学:基于分子、序列的数据和形态学的数据来研究不同物种或者不同基因之间的演化关系,它主要是利用系统发生树来描绘不同的物种或者是不同的基因它们的演化关系。
  • 为什么要做系统发生估计?
  1. 可以通过系统发生估计来找到直系同源和旁系同源的基因并且我们能估计不同序列它们发生分化的年代。
  2. 可以重构祖先蛋白找到自然选择的残基,能够检测重组位点。
  3. 能够检测和疾病相关的突变,能够确定新的病原体。
  • 如何估计系统发生?
  • 基于假设:两个序列从它们共同的祖先序列分化开始,随着时间的增长,他们应该变得更加不同。
  • 基本想法:统计它们不同序列之间发生变化的数目,并且认为如果发生变化的数目越少,它们就有越近的亲缘关系。
  • 该问题复杂性在于:序列演化的速率并不是随时间恒定的,因此不能简单地通过对比两个序列的差异程度就能够判断它们从什么时候开始分化;自然选择是有一定的倾向性的,所以对于一些远缘的进化,它们的速率也比较慢,它们在一些残基上仍可能是相似的;有一些DNA的位点并不能帮助我们进行系统发生的估计,因为有些位点的进化是比较保守的,而有一些位点的进化速度很快。
  • 传统方法:邻接法、减约法、最大似然法
  • 邻接法基本思想:把序列之间的不同用一个序列间距来表示,每一次将距离最相近的点加入到系统演化树之中。优点:计算很快;缺点:将序列差异转化成距离的过程中丢失了很多信息。
  • 简约法:构建一个系统发生树使得发生的变异是最少的。优点:计算快,当序列比较相近时,即亲缘关系比较近时,最大简约法比较稳定;缺点:不同序列之间的亲缘关系并不是都很近,有的近有的远的话,表现就不尽人意了。
  • 最大似然法:计算出给定了树的拓扑结构,能够得到这些数据的概率,希望得到一个拓扑结构和一些参量使得这个概率是最大的。优点:充分利用已有的数据;缺点:计算慢,参量多的情况下不稳定。
  • 如何检验树的可信程度?bootstrap方法。
  • 贝叶斯方法:最大化后验概率。已知观察到数据的情况下,它之前是那样一个系统发生树的概率。优点:和最大似然估计有比较强的关联性,在计算得到一个最优树的同时它能够得到这个最优树的不确定部,并且它能够基于结果来构建出一些复杂的模型。而且它不会基于分子钟的假设,可以自己设置参数。缺点:这些参量的先验概率比较主观,计算时间不确定。
  • 分子钟假设:随着时间的延长,发生变异的概率是比较固定的。
  • The estimation of phylogenies has become a regular step in the analysis of new gene sequences.
  • MCMC‐based approaches are extending the field by answering previously intractable questions.
  • These new techniques seem poised to teach us a great deal about the tree of life and molecular genetics.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值