coursera北京大学生物信息学(第五-第六周)课程笔记

如果觉得有用,谢谢点赞鼓励

第一课 新一代测序

  • 主要讲解了新一代测序在DNA、RNA和蛋白质方面的应用。
    在这里插4片描述

  • 并且测序结果包含了测序误差信息(转化为ASCII码)。
    55

  • /1和/2表示一条链的两头测序
    1

第二课

  • reads mapping 也就是将测序得到的片段回帖到基因组上

  • 基因测序比对跟序列比对存在差异,如下图数据量,错误率等差异.
    1

  • reads比对基因组是混和了全局和局部比对.
    2

  • 因此,这里引入了blast建立索引的方法,将reads快速匹配上基因组上.,然后动态规划进行延申.
    3

  • 所以,这里引入了最为常用的hash
    4
    5

  • 将read拆分为n块,若出错低于n-1块,也就是至少有一块匹配成功就可以延申.
    6

  • 为提供性能,我们引入了前缀树和后缀树进行索引搜索.非常方便查找最长公共子串
    7

  • 为降低测序错误对匹配的影响(以免认为是匹配时候的错误);
    8
    9

  • 遗传变异:单核苷酸的变异和多核苷酸的结构变异.两个类可以再分别子划分,如下图所示
    10

  • SNP中,SNPcalling只确定了变异位置,不能确定变异基因型.而Genotype calling 可以确定变异基因型(如Aa,AA,aa).
    11

  • 基因测序质量去掉不可靠的碱基之后.粗略地,可以将突变位点的频率20%-80%的作为杂合变异位点,小于20%或大于80%的作为纯合变异位点.对于测序深度高的纯合位点有较好表现.
    12

  • 下面以简单的例子为例

13

测试

13
14
15

第六周

第一课

  • 遗传变异对功能表型的影响是一个重要课题
  • 第一课主要介绍遗传变异的来源和类型
  • 来源有三种,第一种是由父母遗传而来,第二种是先天变异,如小儿麻痹症;第三种是后天体细胞变异,如癌症.
    16
  • 人类基因组的变异类型,mutation(突变)是指人类突变中小于1%的突变.polymorphism(多态)是指人类变异中大于1%的变异.variation是指综合上述两种.chromosomal aneuploidy(染色体非整数倍,如21号染色体有3条)
    17
    18
    19
    20
    21
    22

第二课 变异数据库介绍

  • 时间顺序

  • 影响蛋白的遗传变异database:swiss-prot

  • 癌症体细胞突变数据库:cosmic
    23

  • dbSNP数据库正常人出现的单核苷酸变异,还包括其他物种的变异

  • dbvar数据库 比较大的结构变异
    24

  • 人类基因组的测序
    25

  • 疾病相关的数据库:有一万多与单基因遗传相关的疾病。

26

  • 疾病相关的数据库
    27
  • 基于数据库框架LOVD(leiden open varitation database)
    28

第三课

  • 研究基因变异和表型或功能的改变有什么联系,下图为基因变异可能导致的表型
    29
  • 根据blossum矩阵,获得序列相似性.
    30
  • sift方法
    31
    32
    33
    34
  • PolyPhen方法

35
36
37

  • PolyPhen2
    38

第四课

  • 预测模型-SAPRED(比上述sift模型有改进),首先获取特征,包括序列和结构特征.
    39
  • pdb三维结构数据库
    40
  • 同源建模,如果蛋白没有已知结构就需要同源建模了.可以借鉴通过序列比对相似的蛋白结构.若有比对不上的部分,则利用能量方程确定下来.
    41
  • conservation score是指一个位整体看是否保守,不具体管是从哪个氨基酸到哪个氨基酸.
  • Residue frequencies是每一种氨基酸在该位点出现的频率
  • 结构上就看是在表面,二级结构,内部等
  • 另外,下图红字表示其他定义在结构上的特征方法
    42
  • 分析证明比较有效的特征-Structural neighbor profile;需要在变异位置画一个球体,周围变异的有多少个,也就是说周围变异的对该位点的表达影响比较大.
    43
  • 对之前方法的修订,发生变异的位点是否在功能区间,这里修订为不仅考虑是否在功能区间内,还考虑该变异离最近的功能区间的距离.而距离可以从序列和结构上确定.
    44
  • 比较特别的是,经过实验,在结构中没有确定坐标的无序区间对于氨基酸的表达影响非常大.
    45
  • 另外几个比较特征
    46
  • 最终使用svm模型,并对结果进行混淆矩阵计算和AAC,MCC计算并与同行比较.

测试

47

  • 第四题错误了
    48
    49
    50
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值