coursera北京大学生物信息学（第五-第六周）课程笔记

本文链接：https://blog.csdn.net/xjw9602/article/details/105220939

reads mapping 也就是将测序得到的片段回帖到基因组上
基因测序比对跟序列比对存在差异,如下图数据量,错误率等差异.
reads比对基因组是混和了全局和局部比对.
因此,这里引入了blast建立索引的方法,将reads快速匹配上基因组上.,然后动态规划进行延申.
所以,这里引入了最为常用的hash
将read拆分为n块,若出错低于n-1块,也就是至少有一块匹配成功就可以延申.
为提供性能,我们引入了前缀树和后缀树进行索引搜索.非常方便查找最长公共子串
为降低测序错误对匹配的影响(以免认为是匹配时候的错误);
遗传变异:单核苷酸的变异和多核苷酸的结构变异.两个类可以再分别子划分,如下图所示
SNP中,SNPcalling只确定了变异位置,不能确定变异基因型.而Genotype calling 可以确定变异基因型(如Aa,AA,aa).
基因测序质量去掉不可靠的碱基之后.粗略地,可以将突变位点的频率20%-80%的作为杂合变异位点,小于20%或大于80%的作为纯合变异位点.对于测序深度高的纯合位点有较好表现.
下面以简单的例子为例

第六周

遗传变异对功能表型的影响是一个重要课题
第一课主要介绍遗传变异的来源和类型
来源有三种,第一种是由父母遗传而来,第二种是先天变异,如小儿麻痹症;第三种是后天体细胞变异,如癌症.
人类基因组的变异类型,mutation(突变)是指人类突变中小于1%的突变.polymorphism(多态)是指人类变异中大于1%的变异.variation是指综合上述两种.chromosomal aneuploidy(染色体非整数倍,如21号染色体有3条)

预测模型-SAPRED（比上述ｓｉｆｔ模型有改进）,首先获取特征,包括序列和结构特征.
pdb三维结构数据库
同源建模,如果蛋白没有已知结构就需要同源建模了.可以借鉴通过序列比对相似的蛋白结构.若有比对不上的部分,则利用能量方程确定下来.
conservation score是指一个位整体看是否保守,不具体管是从哪个氨基酸到哪个氨基酸.
Residue frequencies是每一种氨基酸在该位点出现的频率
结构上就看是在表面,二级结构,内部等
另外,下图红字表示其他定义在结构上的特征方法
分析证明比较有效的特征-Structural neighbor profile;需要在变异位置画一个球体,周围变异的有多少个,也就是说周围变异的对该位点的表达影响比较大.
对之前方法的修订,发生变异的位点是否在功能区间,这里修订为不仅考虑是否在功能区间内,还考虑该变异离最近的功能区间的距离.而距离可以从序列和结构上确定.
比较特别的是,经过实验,在结构中没有确定坐标的无序区间对于氨基酸的表达影响非常大.
另外几个比较特征
最终使用svm模型,并对结果进行混淆矩阵计算和AAC，MCC计算并与同行比较．