第八周
第一课
- 利用深度测序技术研究转录组
- 背景:转录组就是指细胞特定时刻基因表达谱的快照
- 转录组通过定性定量研究,如实时荧光定量分析,对起始模板定量分析,可以检测目标转录组的表达水平。然而一次只能测定一个转录本,还要知道待检测转录本序列,因此难以用来检测未知序列
- 基因芯片Micro array。但仍然需要知道待检测转录本序列。
- 表达序列标签EST,基于测序,并不需要知道待检测转录本序列,可以用来寻找新基因。
- RNA-Seq技术流程(定性又定量)
- 需要注意的是本质上是对转录组的随机采样,所以依赖于测序深度。
- 定性定量分析跟测序深度和reads长度有关系
- 根据以上分析,所以需要对原始reads进行RPKM归一化。
- 但RPKM并不是唯一的归一化方法。
- 注:链特异性,reads的方向不一样。
第二课
-
针对RNA -seq的reads mapping的相关分析方法
-
由下图可知,DNA外显子转录为RNA,然后所有外显子连接在一起,接下来需要对转录后序列进行正确拆分,这样才能回帖到原来的DNA上.
-
可以采用join exon策略,对于转录本片段1324,列举所有可能的连接.然后跟原本基因序列比对,mapping时将非junction reads map到基因组,对于无法直接map的junction reads进一步与列举的所有可能连接比较.但是对于以前未知的基因就无能为力了.
-
为了克服上述未知基因的问题,下面介绍split reads策略. mapping时将非junction reads map到基因组,对于无法直接map的junction reads将参照blast方法切分为若干长度为K的种子,再利用种子重试,也就是在更小的种子map.可以用来发现新的基因.
-
tophat工具集成了上述两种方法,针对不同阶段采取不同的索引.
-
tophat是一个把reads回帖到基因组的工具
-
完成mapping只是第一步,然后需要将reads组装成转录本,针对每个转录本估计相应的表达量.
-
将转录本的组装问题描述为有向图的遍历问题.通过对边不同权值来约束.接下来以cufflinks工具介绍.
-
找不可能为同一个转录本的片段,然后同一个颜色的片段是相容的,将相容的片段作为节点,并和他最近且相容的片段相连.然后就得到重叠图.基于精简原则,cufflinks在图中找能够覆盖所有reads路径中互不相连,且最少的一组路径作为最优路径,得到最终三个转录本集合.
-
cufflinks 是尽可能将尽可能拼接出最有可能的转录本结构,并估计表达量
-
cuff merge是将cufflinks结果中gtf文件的多个转录本数据整合为一个全面的转录本注释结果的工具
-
cuffdiff可以站展示不同水平表达的显著性差异
-
CummeRbund是一个R包,可以用来对于cufflinks结果画图展示.
第9周
非编码RNA相关背景
- 非编码RNA:不需要翻译为蛋白就可以行使其生物学功能的RNA
- 功能
- microRNA,作为肿瘤等多种疾病治疗靶点
- Long ncRNAs目前大约有2000多非编码RNA
长非编码RNA鉴定
- identification:也就是根据特征进行分类,那么有什么特征呢
- 生物学特性特征
- 遗传进化信息特征
- 序列特征
- feature selection : 在这些特征中,选择最好的特征
- 完全式搜索
- 启发式搜索
- 随机搜索
-
前向搜索算法,不能删除已被选择的feature,可用于较大的初始特征集
-
广度优先策略是典型的完全搜索方法,耗时间较多
-
模拟退火算法,参考物理金属退火过程,引入了随机因数避免局部最优,高度依赖初始值和参数
-
CPC常用非编码RNA序列比较工具之一
-
CPC对不同长度的ncRNA能达到90%以上的准确率,
-
启发式搜索:也就是每走一步,对结果进行评估,选择最优进行下一步运算。
-
前向选择不能删除变量(会引起信息重复),选择最优的走下一步,简单的贪心算法。
-
后向选择,先从全局开始。
-
上面两者都有可能陷入局部最优
-
双向选择从空集开始,节约时间。
差异表达与聚类分析
- 在鉴定出microRNA之后,我们如何推断其生物学功能呢?
-
对作用机制清楚的microRNA,利用碱基互补作为靶标,推断生物学功能.对于具体作用机制不清晰的microRNA就不适用了。
-
根据表达调控网络中,表达相关的基因往往具有功能相关性的特征,利用表达关联来推断其功能.实际中,常关注以下两类基因:在不同条件下差异表达的基因和在不同条件下不表达的基因.
-
在实际中,由于真实误差的存在,在不同条件下差异表达的基因得到的往往是分布而不是定值.因此不同条件下差异表达的基因的比较实质上是两个分布的比较.也就是说除了均值外,还要考虑方差的影响.
-
由于随机误差的影响,我们需要利用统计学方法,基于概率模型进行统计推断.具体来说,需要构建方差的统计量,基于统计量的0分布,我们需要计算每个基因的p-value值;选择小于给定p-value的基因作为有统计差异表达的基因.
-
例如我们可以构建T分布
-
针对RNA-Seq的数据特点,不同研究组构建了不同的分布.下图是对于不同分布的选择.
-
p-value(假阴性)本质上是对统计错误的可能性概率性表述.具体来说,在实践中,碰到的假阳性和假阴性错误.在实际中会进行多次检验,会碰到多次检验问题.
-
为解决上图多次检验问题,我们可以将p-value的阈值改为更严格 (Bonferroni correction).
- 实际中,为确保降低假阳性而抬高了假阴性错误发生概率,从而降低统计检验效率。
- q-value (相对于p-value)是假阳性的错误比例
- 基因距离度量 欧式距离关心的是表达量,也就是两个基于i在表达水平上的相似性;相关性距离关心的是表达的模式,也就是两个基因在表达变化上的一致性(协方差).由于不表达基因通常是表达变化趋势,因此在实际分析中,关联距离使用的频率更高一些.