如果觉得有用,谢谢点赞鼓励
第一课 新一代测序
-
主要讲解了新一代测序在DNA、RNA和蛋白质方面的应用。
-
并且测序结果包含了测序误差信息(转化为ASCII码)。
-
/1和/2表示一条链的两头测序
第二课
-
reads mapping 也就是将测序得到的片段回帖到基因组上
-
基因测序比对跟序列比对存在差异,如下图数据量,错误率等差异.
-
reads比对基因组是混和了全局和局部比对.
-
因此,这里引入了blast建立索引的方法,将reads快速匹配上基因组上.,然后动态规划进行延申.
-
所以,这里引入了最为常用的hash
-
将read拆分为n块,若出错低于n-1块,也就是至少有一块匹配成功就可以延申.
-
为提供性能,我们引入了前缀树和后缀树进行索引搜索.非常方便查找最长公共子串
-
为降低测序错误对匹配的影响(以免认为是匹配时候的错误);
-
遗传变异:单核苷酸的变异和多核苷酸的结构变异.两个类可以再分别子划分,如下图所示
-
SNP中,SNPcalling只确定了变异位置,不能确定变异基因型.而Genotype calling 可以确定变异基因型(如Aa,AA,aa).
-
基因测序质量去掉不可靠的碱基之后.粗略地,可以将突变位点的频率20%-80%的作为杂合变异位点,小于20%或大于80%的作为纯合变异位点.对于测序深度高的纯合位点有较好表现.
-
下面以简单的例子为例
测试
第六周
第一课
- 遗传变异对功能表型的影响是一个重要课题
- 第一课主要介绍遗传变异的来源和类型
- 来源有三种,第一种是由父母遗传而来,第二种是先天变异,如小儿麻痹症;第三种是后天体细胞变异,如癌症.
- 人类基因组的变异类型,mutation(突变)是指人类突变中小于1%的突变.polymorphism(多态)是指人类变异中大于1%的变异.variation是指综合上述两种.chromosomal aneuploidy(染色体非整数倍,如21号染色体有3条)
第二课 变异数据库介绍
-
时间顺序
-
影响蛋白的遗传变异database:swiss-prot
-
癌症体细胞突变数据库:cosmic
-
dbSNP数据库正常人出现的单核苷酸变异,还包括其他物种的变异
-
dbvar数据库 比较大的结构变异
-
人类基因组的测序
-
疾病相关的数据库:有一万多与单基因遗传相关的疾病。
- 疾病相关的数据库
- 基于数据库框架LOVD(leiden open varitation database)
第三课
- 研究基因变异和表型或功能的改变有什么联系,下图为基因变异可能导致的表型
- 根据blossum矩阵,获得序列相似性.
- sift方法
- PolyPhen方法
- PolyPhen2
第四课
- 预测模型-SAPRED(比上述sift模型有改进),首先获取特征,包括序列和结构特征.
- pdb三维结构数据库
- 同源建模,如果蛋白没有已知结构就需要同源建模了.可以借鉴通过序列比对相似的蛋白结构.若有比对不上的部分,则利用能量方程确定下来.
- conservation score是指一个位整体看是否保守,不具体管是从哪个氨基酸到哪个氨基酸.
- Residue frequencies是每一种氨基酸在该位点出现的频率
- 结构上就看是在表面,二级结构,内部等
- 另外,下图红字表示其他定义在结构上的特征方法
- 分析证明比较有效的特征-Structural neighbor profile;需要在变异位置画一个球体,周围变异的有多少个,也就是说周围变异的对该位点的表达影响比较大.
- 对之前方法的修订,发生变异的位点是否在功能区间,这里修订为不仅考虑是否在功能区间内,还考虑该变异离最近的功能区间的距离.而距离可以从序列和结构上确定.
- 比较特别的是,经过实验,在结构中没有确定坐标的无序区间对于氨基酸的表达影响非常大.
- 另外几个比较特征
- 最终使用svm模型,并对结果进行混淆矩阵计算和AAC,MCC计算并与同行比较.
测试
- 第四题错误了