2020.8.25丨微生物基因组重测序流程梳理

9 篇文章 2 订阅
6 篇文章 2 订阅

产品概述

全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。SBC将不同梯度插入片段(Insert-Size)的测序文库结合短序列(Short-Reads)、双末端(Paired-End)进行测序,帮助客户在全基因组水平上扫描并检测与重要性状相关的基因序列差异和结构变异,实现遗传进化分析及重要性状候选基因预测。细菌重测序能够分析近源菌种之间的单核苷酸多态性(SNP)、插入(Insertion)、缺失(Deletion)等基因组变异类型。可以为筛查菌株的优良性状,菌株抗药性等研究提供指导与依据。

基本概念

测序深度(Sequencing Depth)
测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。
在这里插入图片描述
测序深度对基因组覆盖度和测序错误率的影响(HOM:纯合体 HET:杂合体)​

产品优势

性价比高:低价获得100× coverage 的全基因组数据
附加值高:数据挖掘推荐,数据交付6个月内,提供免费的项目咨询服务

研究内容

分析流程图

全基因组重测序与Denovo测序生信分析流程
在这里插入图片描述

全基因组重测序与Denovo测序生信分析内容
在这里插入图片描述

数据产出及处理

测序质量报告

一般使用FastQC、NGSQCToolkit等软件,对测序原始数据质量进行查看。主要内容包括。BasicStatistics、Per base sequence quality、Persequence quality scores……Kmer Content等11项内容。
数据产出、质控及比对

  1. 去除接头污染和低质量数据
  2. 产出数据及质控统计

标准信息分析

初级组装及评价

K-mer分析
GC-Depth分析

比较基因组分析

采用progressiveMauve软件比对不同细菌的染色体序列
参考基因组同源性比较、SNP/InDel、物种进化分析

SNPCalling计算

检测全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。一般采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP(一般是GATK+Samtools)。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。并根据参考基因组信息对检测到的变异进行注释。
常用软件
主要有FRAPPE:https://github.com/frappe/frappe;
GATK:https://software.broadinstitute.org/gatk/;
FreeBayes:https://github.com/ekg/freebayes/releases/tag/v1.3.2;
Samtools:https://sourceforge.net/projects/samtools/?source=navbar)
这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性(常见基因型推断软件有:Beagle、impute2、Fastphase、Phase等软件)。

统计SNV的等位基因频率在全基因组上的分布

稀有等位基因数目在不同类别的SNV中的比率分布
SNV的类别主要考虑:
(1)无义(nonsense)
(2)化学结构中非同义
(3)所有非同义
(4)保守的非同义
(5)非编码
(6)同义
另外,针对保守性的讨论,我们将分析非编码区域SNV的保守型情况及其分布。

分析对象包括全新预测的SNP,indel,large deletion, 以及外显子SNP在每个等位基因频率类别下的数目比率(fraction)。

全新预测是指预测分析结果与dbSNP(当前版本129)以及deletion数据库dbVar(2010年6月份版本)和已经发表的有关indels研究的基因组数据经过比较后识别确定的全新的SNP,indel以及deletion。dbSNP包含SNP和indels; dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因组学研究(JC Ventrer 以及Watson 基因组,炎黄计划亚洲人基因组)结果提供的short indels和large deletion。

计算SNP,Deletion,以及Insertion 大小分布。

计算SNP,Deletion,以及Insertion中属于全新预测结果的数目占已有各自参考数据库数目的比例(相对于dbSNP数据库;dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因组学研究(JC Ventrer 以及Watson 基因组,炎黄计划亚洲人基因组)结果提供的short indels和large deletion)其中,可以给出LINE,Alu的特征位置。

InDel检测及在基因组的分布:

在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为15个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。理论上可以检测150bp的插入缺失突变。

CNV拷贝数变异与SV结构变异检测及在基因组中的分布:

能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。
拷贝数变异检测软件:
CNVnator:

变异类型注释(发生区域统计)

常见软件有SnpEff、ANNOVAR、等

密码子和氨基酸变化统计
碱基替代类型和比例统计
各基因变异分布统计
候选位点检测、统计、注释
候选基因GO、KEGG功能注释

高级数据分析(含全基因组群体进化分析)

群体遗传多样性分析

主要指标有:群体遗传多样性指数计算
常见分析软件:Arlequin、VCFtools等
群体进化研究
主成分分析(PCA)
系统发生分析(Phylogenetic)
遗传结构(STRUCTURE)

群体遗传结构分析
QTL定位
全基因组关联分析(GWAS)

常见分析软件与算法:
PLINK、Tassel5.0、GAPIT、GenABEL(R库)、EMMAX、SNPassoc(R包)、GRAMMAR-Gamma、FaST-LMM、FaST-LMM-Select和BOLT-LMM。

选择性清楚分析
突变功能检测

定制化分析

可结合客户的需求,协商确定信息分析内容

重复序列分析

采用从头预测和基于数据库比对的两种方法对两个基因组序列进行转座子(TEs)分析,利用RepeatModeler软件对两种方法的结果进行整合分析并构建转座子序列数据库,使用RepeatClassifier软件对转座子进行分类,计算基因组中转座子的序列变异速率,揭示基因组扩张的可能机制。

参考来源

作者:oddxix 链接:https://www.jianshu.com/p/7d4e4948b623
作者:wangchuang2017 链接:https://www.cnblogs.com/wangprince2017/p/9815347.html
作者:wangchuang2017 链接:https://zhuanlan.zhihu.com/p/60476207

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值