北大生物信息学课程第8-9周课程笔记

第八周

第一课

  • 利用深度测序技术研究转录组
  • 背景:转录组就是指细胞特定时刻基因表达谱的快照
  • 转录组通过定性定量研究,如实时荧光定量分析,对起始模板定量分析,可以检测目标转录组的表达水平。然而一次只能测定一个转录本,还要知道待检测转录本序列,因此难以用来检测未知序列
  • 基因芯片Micro array。但仍然需要知道待检测转录本序列。
  • 表达序列标签EST,基于测序,并不需要知道待检测转录本序列,可以用来寻找新基因。
  • RNA-Seq技术流程(定性又定量)
    1
    2
    - 需要注意的是本质上是对转录组的随机采样,所以依赖于测序深度。

- 定性定量分析跟测序深度和reads长度有关系
3
4
- 根据以上分析,所以需要对原始reads进行RPKM归一化。
5
- 但RPKM并不是唯一的归一化方法。

- 注:链特异性,reads的方向不一样。
6

第二课

  • 针对RNA -seq的reads mapping的相关分析方法

  • 由下图可知,DNA外显子转录为RNA,然后所有外显子连接在一起,接下来需要对转录后序列进行正确拆分,这样才能回帖到原来的DNA上.
    7

  • 可以采用join exon策略,对于转录本片段1324,列举所有可能的连接.然后跟原本基因序列比对,mapping时将非junction reads map到基因组,对于无法直接map的junction reads进一步与列举的所有可能连接比较.但是对于以前未知的基因就无能为力了.
    8

  • 为了克服上述未知基因的问题,下面介绍split reads策略. mapping时将非junction reads map到基因组,对于无法直接map的junction reads将参照blast方法切分为若干长度为K的种子,再利用种子重试,也就是在更小的种子map.可以用来发现新的基因.
    9

  • tophat工具集成了上述两种方法,针对不同阶段采取不同的索引.

  • tophat是一个把reads回帖到基因组的工具
    10

  • 完成mapping只是第一步,然后需要将reads组装成转录本,针对每个转录本估计相应的表达量.

  • 将转录本的组装问题描述为有向图的遍历问题.通过对边不同权值来约束.接下来以cufflinks工具介绍.
    11

  • 找不可能为同一个转录本的片段,然后同一个颜色的片段是相容的,将相容的片段作为节点,并和他最近且相容的片段相连.然后就得到重叠图.基于精简原则,cufflinks在图中找能够覆盖所有reads路径中互不相连,且最少的一组路径作为最优路径,得到最终三个转录本集合.

  • cufflinks 是尽可能将尽可能拼接出最有可能的转录本结构,并估计表达量

  • cuff merge是将cufflinks结果中gtf文件的多个转录本数据整合为一个全面的转录本注释结果的工具

  • cuffdiff可以站展示不同水平表达的显著性差异

  • CummeRbund是一个R包,可以用来对于cufflinks结果画图展示.1213
    14

第9周

非编码RNA相关背景

  • 非编码RNA:不需要翻译为蛋白就可以行使其生物学功能的RNA
    15
  • 功能
    16
  • microRNA,作为肿瘤等多种疾病治疗靶点
    17
  • Long ncRNAs目前大约有2000多非编码RNA
    18

长非编码RNA鉴定

  • identification:也就是根据特征进行分类,那么有什么特征呢
  1. 生物学特性特征
  2. 遗传进化信息特征
  3. 序列特征
  • feature selection : 在这些特征中,选择最好的特征
  1. 完全式搜索
  2. 启发式搜索
  3. 随机搜索
    19
  • 前向搜索算法,不能删除已被选择的feature,可用于较大的初始特征集
    020

  • 广度优先策略是典型的完全搜索方法,耗时间较多
    20

  • 模拟退火算法,参考物理金属退火过程,引入了随机因数避免局部最优,高度依赖初始值和参数
    21

  • CPC常用非编码RNA序列比较工具之一

  • CPC对不同长度的ncRNA能达到90%以上的准确率,
    22

  • 启发式搜索:也就是每走一步,对结果进行评估,选择最优进行下一步运算。

  • 前向选择不能删除变量(会引起信息重复),选择最优的走下一步,简单的贪心算法。

  • 后向选择,先从全局开始。

  • 上面两者都有可能陷入局部最优

  • 双向选择从空集开始,节约时间。

差异表达与聚类分析

  • 在鉴定出microRNA之后,我们如何推断其生物学功能呢?
  1. 对作用机制清楚的microRNA,利用碱基互补作为靶标,推断生物学功能.对于具体作用机制不清晰的microRNA就不适用了。

  2. 根据表达调控网络中,表达相关的基因往往具有功能相关性的特征,利用表达关联来推断其功能.实际中,常关注以下两类基因:在不同条件下差异表达的基因和在不同条件下不表达的基因.
    23

  3. 在实际中,由于真实误差的存在,在不同条件下差异表达的基因得到的往往是分布而不是定值.因此不同条件下差异表达的基因的比较实质上是两个分布的比较.也就是说除了均值外,还要考虑方差的影响.

  4. 由于随机误差的影响,我们需要利用统计学方法,基于概率模型进行统计推断.具体来说,需要构建方差的统计量,基于统计量的0分布,我们需要计算每个基因的p-value值;选择小于给定p-value的基因作为有统计差异表达的基因.

  5. 例如我们可以构建T分布
    24

  6. 针对RNA-Seq的数据特点,不同研究组构建了不同的分布.下图是对于不同分布的选择.
    25

  7. p-value(假阴性)本质上是对统计错误的可能性概率性表述.具体来说,在实践中,碰到的假阳性和假阴性错误.在实际中会进行多次检验,会碰到多次检验问题.
    26

  8. 为解决上图多次检验问题,我们可以将p-value的阈值改为更严格 (Bonferroni correction).

  • 实际中,为确保降低假阳性而抬高了假阴性错误发生概率,从而降低统计检验效率。
    27
    28
  1. q-value (相对于p-value)是假阳性的错误比例
    29
  • 基因距离度量 欧式距离关心的是表达量,也就是两个基于i在表达水平上的相似性;相关性距离关心的是表达的模式,也就是两个基因在表达变化上的一致性(协方差).由于不表达基因通常是表达变化趋势,因此在实际分析中,关联距离使用的频率更高一些.
    30
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值