2020.12.10【读书笔记】丨基因组De novo 产品介绍

24 篇文章 22 订阅
13 篇文章 9 订阅
  • 基因组De novo 简介
    • 基因组
      • 定义:基因组就是物种所含有的一套遗传物质 单倍体 细胞核、 细胞器所 含的全部 DNA 分子),包括全套基因和间隔序列。
      • 基因组观察维度
    • 基因组测序
      • 基因组测序( Genome Sequencing)
        • 利用测序技术对物种的体内的所有 DNA 分子进行测序,获取碱基组成明确出基因的结构信息,外显子及内含子区域、启动子位置,以及基因的排列顺序及功能。
      • 基因组测序技术
        • 二代测序:基于 BGI 平台的边合成边测序;
        • 三代测序:基于 PacBio 平台的单分子实时测序。
      • 基因组测序原理
        • 通过对基因组 DNA 序列进行打断处理,制作成可以识别或读取的 DNA 形式及大小,利用荧光标记对每个碱基信号进行读取,进而获得 DNA 序列信息。
    • 基因组De novo概述
      • 基因组 de novo ,又称为基因组从头测序,是指对基因组序列未知 (或仅有基因组草图)的物种进行全基因组测序,然后进行拼装,从而得到该物种的全基因组序列,为后续功能基因挖掘、调控代谢网络构建、物种进化分析等奠定基础。
      • 基因组 de novo分析流程
  • Survey分析
    • 简介
      • 基因组 Survey 基于小片段文库的低深度测序数据( 50X 100X
      • 通过 K mer 分析,有效的评估基因组大小、 GC 含量、杂合度以及重复序列的含量等信息;
      • 全面了解某一物种基因组特征的有效方法;
      • 为后续的全基因组 de novo 测序的组装策略的制定提供理论依据。
      • 分析内容
      • 名词定义
        • 1.普通基因组的定义?
          • 单倍体,纯合二倍体或者杂合度< 0.5%,且重复序列含量 < GC 含量为 35% 到 65% 之间的二倍体。
        • 2.复杂基因组的定义?
          • 杂合率>0.5%,重复序列含量 50%,多倍体 GC 含量处于异常的范围( GC 含量< 35% 或者 GC 含量> 65% 的二倍体)。
        • 3.二倍体复杂基因组进一步细分为
          • 微杂合基因组(0.5%<杂合率 <=0.8%)
          • 高杂合基因组(杂合率>0.8%)
          • 高重复基因组(重复序列比例> 50%)。
        • 4.基因组大小: 基因组越大,测序花的钱越多
      • 案例展示
        • 二倍体
        • 三倍体
          • 三倍体是 1:2:3 。
          • 2 和 3 如果深度低可能重叠在一起
        • 异源四倍体
          • 异源四倍体主要只有 2 个峰,呈现 1:2 的关系
          • 和常见的高重复二倍体峰形一致。
        • 同源四倍体
          • 同源四倍体的峰就是 1 2 3 4 ,其中 3 和 4 经常重叠在一起
      • 常见问题
        • 为什么一定要做Survey
          • Survey是评估基因组的有效手段,对于没有参考基因组的物种,在启动 Denovo 项目之前,对基因组特征评估是十分必要的,基因组的大小及复杂状况直接影响到价格、周期以及后续的组装方案等。
        • Survey评估和流式细胞仪评估有什么区别?
          • 两者都可以对基因组的大小进行评估,Survey 评估中的 Kmer 分析是从数学角度上进行分析的,得到的信息更为全面和准确。而流式则是通过实验的手段,主要通过已知内参物种基因组大小来评估被测物种的基因组大小。由于内参选择不同,实验预估基因组大小与实际会有一些偏差。
        • 做了基因组Survey 是否就一定不用做流式了呢?
          • 不是。我们一般建议老师在做Survey 之前先做一下流式对基因组大小有个初步的预估。原因如下: Kmer 分析中,我们把 Kmer 分布最多的峰为主峰,主峰前的 1/2 的峰称为杂合峰,把主峰后 2 倍的位置的峰称为重复峰。这时我们需要流式的结果来对我们的判断进行验证。根据不同峰计算的基因组大小不同,哪个和流式结果更加吻合哪个即是主峰。
  • 基因组组装、注释
    • 基本概念和原理
    • 分析流程
    • 常用软件
      • CANU
      • MECAT
      • FALCON
    • 不同软件结果比对
      • 从项目周期、组装结果、资源消耗等方面综合来看,我们首选Mecat 2 进行基因组组装。
    • Hi-C辅助组装
      • Hi-C数据的一般规律:
      • 优势:
    • 组装结果评估
      • 组装完整性(三代数据回比)、BUSCO评估
        • 为了评估组装的完整性和测序覆盖的均匀性, 选择 CLR (Continuous Long Reads) subreads ,使用比对工具 Minimap2 v2.5 默认参数)比对回组装好的基因组,统计 reads 的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性,结果如下表所示。
          • 比对结果
        • 基于OrthoDB 中的单拷贝同源基因集,使用 BUSCO V3.0.2 )预测这些基因并统计其完整度,碎片化程度及可能的丢失率。由此评估整个组装结果中基因区的完整性。本次评估采用的 BUSCO 基因集为。BUSCO评估结果如下表所示。
      • 组装准确性(二代数据回比)
      • 基因组注释
        • 分析流程及相关工具
        • 注释方法
        • 重复序列注释
        • 基因结构注释
        • 基因功能注释
        • 非编码RNA注释结果统计
      • 圈图展示结果
        • 圈图
          注:从外到内依次为基因密度、
          重复序列占比、非编码 RNA 注释、
          GC 含量,颜色越深代表值越大。
        •  
  • 比较基因组学分析
    • 分析流程(绿色为比较基因组学)
    • 基因家族聚类
      •  
    • 系统进化树
    • 物种分歧时间估算
    • 基因家族扩张收缩分析
    • 正选择分析
    • 共线性分析
      • 共线性片段是指同一个物种内部或者两个物种之间由于复制或者物种分化而产生的大片段的同源现象。两个物种中,同源基因在基因座位上的连锁及顺序保守性成为基因组共线性,共线性分析为近缘物种之间重要基因的研究提供了便利。
      • 1
      • 2
      • 从宏观上显示基因组水平的插入、缺失、易位和 倒位,可用于确定祖先物种、近缘物种的变异特征等。
    • 全基因组复制分析
      • 共线性区段所包含的基因对的4DTV 值 ( The rate of transversions on 4 fold degenerate synonymous sites) 4dTV 可反映物种在进化史中的物种相对分化事件以及全基因组复制 事件 。
      • WGD
      • WGD之后,小部分有利于物种进化的基因被保留,而大多数冗余的基因会消失或变成 假基因。因此,根据 WGD ,可用于研究基因组的特征及进化分歧事件等。
    • 个性化分析-泛基因组
      • 发展历程
      • 分析内容
      • 与de novo、比较基因组的关系
  •  
  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值