北大生物信息学课程第8-9周课程笔记_reads去mapping时需要先组装嘛-CSDN博客

本文链接：https://blog.csdn.net/xjw9602/article/details/105437700

课程笔记

第八周
- 第一课
- 第二课
第9周

第八周

第一课

利用深度测序技术研究转录组
背景：转录组就是指细胞特定时刻基因表达谱的快照
转录组通过定性定量研究，如实时荧光定量分析，对起始模板定量分析，可以检测目标转录组的表达水平。然而一次只能测定一个转录本，还要知道待检测转录本序列，因此难以用来检测未知序列
基因芯片Micro array。但仍然需要知道待检测转录本序列。
表达序列标签EST，基于测序，并不需要知道待检测转录本序列，可以用来寻找新基因。
RNA-Seq技术流程（定性又定量）

－　需要注意的是本质上是对转录组的随机采样，所以依赖于测序深度。

－　定性定量分析跟测序深度和reads长度有关系

－　根据以上分析，所以需要对原始reads进行RPKM归一化。

－　但RPKM并不是唯一的归一化方法。

－　注：链特异性，reads的方向不一样。

第二课

针对RNA -seq的reads mapping的相关分析方法
由下图可知,DNA外显子转录为RNA,然后所有外显子连接在一起,接下来需要对转录后序列进行正确拆分,这样才能回帖到原来的DNA上.
可以采用join exon策略,对于转录本片段1324,列举所有可能的连接.然后跟原本基因序列比对,mapping时将非junction reads map到基因组,对于无法直接map的junction reads进一步与列举的所有可能连接比较.但是对于以前未知的基因就无能为力了.
为了克服上述未知基因的问题,下面介绍split reads策略. mapping时将非junction reads map到基因组,对于无法直接map的junction reads将参照blast方法切分为若干长度为K的种子,再利用种子重试,也就是在更小的种子map.可以用来发现新的基因.
tophat工具集成了上述两种方法,针对不同阶段采取不同的索引.
tophat是一个把reads回帖到基因组的工具
完成mapping只是第一步,然后需要将reads组装成转录本,针对每个转录本估计相应的表达量.
将转录本的组装问题描述为有向图的遍历问题.通过对边不同权值来约束.接下来以cufflinks工具介绍.
找不可能为同一个转录本的片段,然后同一个颜色的片段是相容的,将相容的片段作为节点,并和他最近且相容的片段相连.然后就得到重叠图.基于精简原则,cufflinks在图中找能够覆盖所有reads路径中互不相连,且最少的一组路径作为最优路径,得到最终三个转录本集合.
cufflinks 是尽可能将尽可能拼接出最有可能的转录本结构,并估计表达量
cuff merge是将cufflinks结果中gtf文件的多个转录本数据整合为一个全面的转录本注释结果的工具
cuffdiff可以站展示不同水平表达的显著性差异
CummeRbund是一个R包,可以用来对于cufflinks结果画图展示.

第9周

非编码RNA相关背景

非编码RNA：不需要翻译为蛋白就可以行使其生物学功能的RNA
功能
microRNA，作为肿瘤等多种疾病治疗靶点
Long ncRNAs目前大约有2000多非编码RNA

长非编码RNA鉴定

identification：也就是根据特征进行分类，那么有什么特征呢

生物学特性特征
遗传进化信息特征
序列特征

feature selection ：在这些特征中，选择最好的特征

完全式搜索
启发式搜索
随机搜索

前向搜索算法，不能删除已被选择的feature，可用于较大的初始特征集
广度优先策略是典型的完全搜索方法，耗时间较多
模拟退火算法，参考物理金属退火过程，引入了随机因数避免局部最优，高度依赖初始值和参数
CPC常用非编码RNA序列比较工具之一
CPC对不同长度的ncRNA能达到90%以上的准确率，
启发式搜索：也就是每走一步，对结果进行评估，选择最优进行下一步运算。
前向选择不能删除变量（会引起信息重复），选择最优的走下一步，简单的贪心算法。
后向选择，先从全局开始。
上面两者都有可能陷入局部最优
双向选择从空集开始，节约时间。

差异表达与聚类分析

在鉴定出microRNA之后,我们如何推断其生物学功能呢?

对作用机制清楚的microRNA,利用碱基互补作为靶标,推断生物学功能.对于具体作用机制不清晰的microRNA就不适用了。
根据表达调控网络中,表达相关的基因往往具有功能相关性的特征,利用表达关联来推断其功能.实际中,常关注以下两类基因:在不同条件下差异表达的基因和在不同条件下不表达的基因.
在实际中,由于真实误差的存在,在不同条件下差异表达的基因得到的往往是分布而不是定值.因此不同条件下差异表达的基因的比较实质上是两个分布的比较.也就是说除了均值外,还要考虑方差的影响.
由于随机误差的影响,我们需要利用统计学方法,基于概率模型进行统计推断.具体来说,需要构建方差的统计量,基于统计量的0分布,我们需要计算每个基因的p-value值;选择小于给定p-value的基因作为有统计差异表达的基因.
例如我们可以构建T分布
针对RNA-Seq的数据特点,不同研究组构建了不同的分布.下图是对于不同分布的选择.
p-value(假阴性)本质上是对统计错误的可能性概率性表述.具体来说,在实践中,碰到的假阳性和假阴性错误.在实际中会进行多次检验,会碰到多次检验问题.
为解决上图多次检验问题,我们可以将p-value的阈值改为更严格 (Bonferroni correction).