北京大学生物信息学课程笔记(第一 二周课程笔记)

第一周

第一课

  • 课程涉及什么内容
  1. 序列比对算法,如何在大量的基因序列中找到与我最相似的–blast
  2. 序列统计工具
  3. 如何基于已知数据预测未知
  4. 通过马尔可夫模型预测
  5. 如何回帖到参考基因组鉴定一个人的遗传变异
  6. 如何计算基因表达差异
  7. 案例实践
  • 什么是生物信息学
  1. 染色体内的基因组就像是人的说明书
  2. 四个碱基ATCG,so simple, yet so mysterious.
  3. 生物序列数据在genbank记录,每20个月翻一番
  4. SRA数据库存储新测序的数据,每五个月翻一番
  5. 定义:开发应用计算机技术处理生物问题,也是一种有别于以往的研究方法。
  6. 从基因组内如何鉴定被甲基化,如何判断两个相似
  7. 鉴定哪些蛋白被表达,如何从一维预测三维结构
    在这里插入图片描述

第二课

  • 了解领域的空间时间框架
  1. 分子生物学发展
    1.1. 1953年双螺旋结构
    1.2. 从形态水平到分子水平的研究
    1.3. 1965年Evolutionary Divergence and Convergence in Proteins论文
    1.4. 1988年人类基因组计划
    1.5. 1991年诺贝尔得主说研究方法的转变
    1.6. 2001年人类基因组草图发表,完成图在2004年发表
    .
    .
    1.7. 生物信息学文章占比不断增加
  • 中国的生物信息学历史与现状
    驱动力分析四个方面:
    1. 中国互联网技术的快速发展
    2. 人类基因组计划的进行
    3. 政府投资“863”计划,“973”计划
    4. 本土人才培养和海外人才引进

第一周补充材料(3篇论文)

  • Early bioinformatics the birth of a discipline-a personal view(2003年)
    文章从整个人类世界的角度讲述了生物信息从60年代到21世纪的发展历程,从发现双螺旋结构到如今的基因组时代。其中包含大量每个年代的经典论文和在当时引起巨大发展的新技术,以及如今我们还在运用和发展的分布式数据库genbank等。适合于想了解曾经生物信息学发展历程的阅读。

  • Wei-2008-Bioinformatics-in-china-a-personal(2008年)
    文章从中国的角度讲述生物信息学,近年来中国在生物信息学领域发表的论文占比越来越大。中国80年代的科学家是用中国传统学科物理和数学方法来研究生物信息学。但这些中国生物信息学前辈的研究成果是具有意义的,成功地推动了中国生物信息学的发展。直到人类基因组计划,和互联网技术的快速兴起,中国获得了巨大的发展机会。
    上海生物信息研究中心
    北京大学生物信息研究中心

  • Hogeweg-2011-The-roots-of-bioinformatics-in-theo
    文章讲述了生物信息学概念和该概念的起源于发展。并且在发展过程中,我们对于生物的研究方法的改进以及所涉及的其他领域的演变。最后肯定生物信息学这一领域的发展。

第二周

第一课 序列比对概念

  1. 描述了序列比对的基本概念
  2. 明确输入是两个序列,参数是打分矩阵,输出是根据打分矩阵得到的分数
  3. 打分矩阵中明确了单一碱基对之间的得分,但还需要了解空位罚分的概念。因为碱基可能对应着空位。

第二课 序列比对之动态规划算法

在这里插入图片描述
在这里插入图片描述
通过左下角的公式规则(原理为动态规划),我们得到两个序列的最大得分-6。箭头代表从哪里计算得到,最后箭头反方向就表示得到的序列比对结果。

  • 问题是:为什么比对序列AAG和序列AGC要出现空位呢?这里没有空位,但最后比对出来是有空位的,因为有空位的分数更高。

  • 所谓“空格”只是比对过程中产生的gap,如果这个结果不是合理的好的结果,那么不会有gap产生。

  • 最后通过箭头得到两个比对序列的规则是:箭头是竖的,那么上面一行对应空格,箭头是横的,则下面一行对应一位空格。斜线箭头代表了上下不是对应空位。所以最终可以得到上图结果。

局部比对算法

在这里插入图片描述
在上述动态规划算法中,引入了0的最低下限。也就是说,在差异扩大之后,重启比对,获得局部比对的效果。

仿射序列比对的空位罚分与needle-man -wunsch的时间复杂度

在这里插入图片描述
在这里插入图片描述
这里主要将上一节中的减去d给细分出来,前面已经有了一个空格(gap extention),那么这里就-e;前面是一个匹配上的(gap open),那么这里就-d。

  • 时间复杂度从遍历的指数级,降低为平方级。

基本概念补充

  • PAM矩阵和blosum矩阵
  • 在这里插入图片描述
  1. 对于同源性更高的序列应当选择Blosum更高Pam更低的打分矩阵
  2. 将PAM-1自乘N次,可以得到PAM-N。一个PAM-N矩阵元素(i,j)的值:反应两个相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸的频率。
  3. BLOSUM矩阵与PAM矩阵的不同之处在于:
    (1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍。 
    (2)PAM:家族内成员相比,然后把所有家族中对某种氨基酸的比较结果加和在一起,产生“取代”数据(PAM-1 );PAM-1自乘n次,得PAM-n。
    BLOSUM:首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列) ,分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有 60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比 较数据为根据,产生BLOSUM80。
    (3)PAM-n中,n 越小,表示氨基酸变异的可能性越小;相似的序列之间比较应该选用n值小的矩阵,不太相似 的序列之间比较应该选用n值大的矩阵。PAM-250用于约 20%相同序列之间的比较。BLOSUM-n中,n越小,表示氨基酸相似的可能性越小;相似的序列之间比较应该选用 n 值大的矩阵,不太相似的序列之间比较应该选 用n值小的矩阵。
  • 同源性和相似性
  1. 相似性和同源性:相似性(similarity)和同源性( homology)是两个完全不同的概念.同源序列是指从某一共同祖先经过趋异进化而形成的不同序列.相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序
  • 点矩阵 DOT matrix
  • 在这里插入图片描述
  • 在这里插入图片描述
  1. Dot_Matrix点阵是序列比对的基础算法,以图像的形式展示序列之间的相似性,作者通过算法展示序列相似性,并返回所有匹配段片段,一般由于短片段相似性较多,导致背景噪音多,不易直观表示,故采用移框比对的方式降低噪音。

必读论文

  • 两篇论文主要是讲述了Needleman-Wunsch 算法和Smith-Waterman算法
  1. 基于全局匹配算法:动态规划算法、Needleman-Wunsch算法
  2. 基于局部匹配算法:Smith-Waterman算法
  3. 其中需要注意一点是,Needleman-Wunsch算法的罚分规则可根据自己数据进行设计。
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值