【学习笔记】山东大学生物信息学-05 高通量测序技术介绍 + 06 统计基础与序列算法(原理)

课程地址山东大学生物信息学


五、高通量测序技术介绍(没有干货)

5.1 高通量测序技术在精准医学中的应用

  1. Identify new disease genes 疾病基因的筛查
  2. Genomics-based diagnostics/screening 遗传病诊断/筛查
  3. Precision treatment 精准治疗

5.2 生物信息学面临的挑战

  • 数据规模庞大
  • 数据类型复杂
  • 方法学不成熟
  • 技术门槛偏高
  • 可重复性不强

测序偏差 Sequencing bias/errors

  • 454 测序:对于连续重复的 homopolymer,测不准
    在这里插入图片描述

  • Illumina簇达不到理想的数目,导致信号弱,无法准确识别;一个簇内测序反应不同步,导致信号冲突,碱基识别错误;高 GC 区往往测序覆盖度低,也会导致测序偏差。
    在这里插入图片描述

  • PacBio:长 reads 测序(5k-10k),准确度低。

● 校正偏差 Possible solutions

  1. Deep sequencing
  2. Statistical evaluation
  3. Error correction

● Speed and RAM 计算速度与内存

  • 海量数据的计算和挖掘成为主要瓶颈
  • CPU-intensive jobs (read mapping, metagenomics)
  • RAM-intensive jobs (genome assembly)
  • 计算机群(公共计算平台)在这里插入图片描述

5.3 从头测序
de novo sequencing 从头测序:得到的序列是片段化、零碎的(几百 bp),重复序列拼接不好。
在这里插入图片描述
5.4 重测序(没有视频)

5.5 转录组测序 mRNA-seq

5.6 表观基因组学 ChIP-seq

5.7 猛犸象基因组测序计划

5.8 古基因组学面临的挑战:DNA damage,基因组存在高度不稳定性

5.9 古基因组学研究中的生物信息技术

  • De novo assembly
    Find overlapping reads
    Merge good pairs of reads into longer contigs
    Link contigs to form supercontigs
    Generate consensus sequences
  • Comparative assembly
    Using a reference genome(现存大象基因组作为参考基因组) to assemble (or layout) the reads (or contigs) of the target genome.

六、统计基础与序列算法(原理)

6.1 贝叶斯公式及其生物学应用

贝叶斯公式

  • 通常,事件 A 在事件 B 发生的条件下发生的概率,与事件 B 在事件 A 发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系,贝叶斯公式就是描述这种条件关系概率的公式。

  • 设 A、B 是两个事件,
    在事件 B 发生的条件下,事件 A 发生的概率P(A|B)=P(A∩B)/P(B);
    同样的,在事件 A 发生的条件下,事件 B 发生的概率是 P(B|A)=P(A∩B)/P(A)。
    A、B 的联合概率公式为 P(A∩B)= P(A|B) P(B)= P(B|4)P(A)
    上式两边同除以 P(B),若 P(B) 是非零的,我们可以得到贝叶斯公式P(A|B)=P(B|A)P(A)/P(B)

  • 贝叶斯公式延展
    在这里插入图片描述

贝叶斯公式的应用

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

贝叶斯公式的生物学应用

6.2 二元预测的灵敏度和特异度

  • 灵敏度 Sensitivity = TP/ (TP+FN) 真阳性率 (宁可选错也不漏选)
  • 特异度 Specificity = TN/ (TN+FP) 真阴性率 (宁可不选也不选错)

生物学中灵敏度和特异度的应用案例

富亮氨酸重复序列的预测

  • 富亮氨酸重复序列 (LRR) 是一个氨基酸片段,广泛存在于病毒、原核生物与真核生物的上万个已知的蛋白质中,往往参与蛋白质与蛋白质或(非蛋白质)的相互作用,在细胞黏连、信号传导、血小板凝聚、细胞外基质聚集、神经系统发育、RNA 加工、病毒入侵及免疫应答等过程中起到了关键性。它往往在一个蛋白质分子中首尾相接的重复几遍甚至几十遍,当然,每次重复的序列并非完全相同

  • LRR 具有一个特征性序列模板 LxxLxLxxNxL
    在这里插入图片描述

  • 从目前己知的所有 Toll 样受体蛋白质序列 (>2500) 中半手动的精确划分出 5 万多个单个的 LRRs。把这 5 万多个 LRRs 作为标准数据组,从中构建出一个预测模型,来详细描述一个 LRR 的序列特征并可预测一个蛋白质序列中是否含有 LRR,有的话每个 LRR 的起始位置在哪里。

  • 通过位点特异性加权矩阵 (Position-Specific Weight Matrix),构建预测模型: 将 5 万多个 LRRs 序列纵向罗列出来,得出所有序列上各种氨基酸在 LRR 各位点上出现的频率,与 LRR 的特征性序列模板 LxxLxLxxNxL 一致。
    在这里插入图片描述

  • 预测一条序列是否含有 LRR 序列
    Score = 每个点出现该氨基酸的频率之和。因此得分越高,是 LRR 的可能性就越大。
    Cutoff Score 根据二元预测的灵敏度和特异度得到
    在一定的范围内一个个试 Cutoff Score,在不同的 Cutoff Score 下,计算模型的灵敏度和特异度(例如取灵敏度和特异度曲线的交点为 Cutoff Score)。
    在这里插入图片描述

6.3 基本序列算法

  • 序列算法:为研究生物序列而开发出的计算复杂度尽可能低的算法。比如,如何从序列中快速准确的找到重复序列。
  • 生物序列:包括核酸序列、蛋白质序列或其他由生物问题转化而来的数字串或字符串。

后缀树

  • 后缀就是包含最后一个字符的子序列。最后一个字符后面还要加上一个 $, 表示结尾。
  • 后缀 $ 是序列 S 最短的一个后缀
  • 一个序列的所有后缀数等于包括 $ 在内的序列的长度。
    在这里插入图片描述
  • 后缀树:用一个序列所包含的所有后缀构成的树。

画后缀树

  • 1、先画 1 号序列,从根到叶画一条枝,枝上标记序列;
  • 2、画 2 号序列,看有没有以 2 号序列的首字母 D 开头的枝,没有就另起一枝。
  • 3、画 3 号序列,有以 SD 开头的序列,之后分枝把后面的序列写完。
    在这里插入图片描述
  • 4、以此类推,画出序列的所有后缀。
    在这里插入图片描述

后缀树的功能

字符串 S=SDSDFSDFG

  • 功能 1: 查找字符串 s 是否在字符串 S 中(即 判断 s 是否是 S 的子序列)。
    方法:从树根开始,与 s 的字符逐一比对。(只需要比对 s 的长度次即可以得出结果。)
    s1=DFSD (在!)
    s2=SDFD (在不在?)
    在这里插入图片描述

  • 功能 2: 查找字符串 s 在字符串 S 中的重复次数
    方法:从树根开始,按照功能 1 的方法找到 s,然后看 s 之后有几片树叶,则重复几次。
    在这里插入图片描述

  • 功能 3: 找字符串 S 中的最长重复子序列
    方法:找到从树根到所有内节点(非叶片)的子字符串,从中找到最长的
    在这里插入图片描述

  • $ 的作用:如果某一个后缀是另一个后缀的前缀,那么需要用 $ 标识出一个独立的叶片。
    在这里插入图片描述

最高分-子序列

最短原则:在几个子序列同时拥有最高分时,如果某一个完全包含在另一之内,则只返回被包含的那一个。例如,下图序列有 2 个最高分子序列。
在这里插入图片描述

  • 生物学应用:
    (1) 预测蛋白质序列跨膜区域(疏水片段)。根据氨基酸的亲疏水性不同,将字符串序列转化为实数序列,疏水氨基酸 [0,5], 亲水氨基酸 [-5,0]。
    在这里插入图片描述
    (2)预测 DNA 序列中富含 GC 的区域。如寻找 CpG 岛。
    在这里插入图片描述
  • Naive 算法:按照其算法原理,计算一次 f(i,j) 需要计算 n3步。
    ◆ 通常一个算法的计算复杂度至少要达到 n2以下,才有可能被实际应用。否者,随着 n 的增大,计算量会超出目前的计算能力以及可接受的计算时间。因此,最高分子序列问题,不能用 Naive 算法。
    在这里插入图片描述
  • 更高效的算法:
    动态算法的总运算步骤为: O(n2)
    分而治之法的总运算步骤为:O(nlogn)
    聪明算法的总运算步骤为: O(n)

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值