以一个细菌的测序数据为例子,介绍细菌基因组测序分析流程。本次实验中的细菌基因组大小为3.4M,通过illumina PE150bp测序,获得测序数据量为~800M,通过拼接得到该样本的草图基因组序列,并进行基因注释等分析。


1  概述

2  基因组de novo测序的分析

    2.1  分析流程图

    2.2  测序数据格式

    2.3  数据准备

    2.4  数据质控

    2.5  基因组组装

    2.6  组装结果统计

    2.7  组装示意图

    2.8  基因组注释

3  在线分析网站

4  词汇表




细菌基因组测序,可分为细菌基因组de novo测序和细菌基因组重测序两类。细菌基因组de novo测序,即从头测序,是指在没有任何现有的序列信息的情况下,对某个细菌物种进行测序,利用生物信息学分析手段对序列进行拼装,从而获得该细菌物种的基因组序列。细菌基因组重测序是对已有参考基因组序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的差异性分析。可关注大量的单核苷酸多态性位点(SNP)、插入缺失(InDel, Insertion/Deletion)、结构变异(Structure Variation,SV)等变异信息。

本篇文章将重点介绍细菌基因组de novo测序的分析流程。

基因组de novo测序的分析



根据barcode序列区分样本,提取出的数据以标准的fastq格式保存。以双端测序(PE:paired-end)数据为例,每一个样本有read1.fastq和read2.fastq两个文件,分别代表5’ -> 3’和 3’->5’的测序结果。在生信入门:Fasta与Fastq格式文件详解里面,我们已经初步认识了fastq格式。

第4行是该序列的测序质量,每个字符对应为第2行每个碱基的测序质量值,用Phred值+33后,所对应的ASCII字符来表示。Phred值的计算方法为:Q =-10*log10(e) 其中e是碱基错误率。


Phred Quality ScoreProbability of incorrect base callBase call accuracy
101 in 1090%
201 in 10099%
301 in 100099.9%
401 in 1000099.99%



test_1.fq.gz  test_2.fq.gz

通过ls命令查看,发现当前目录下有两个fastq的压缩文件,它们是illumina测序获得的原始数据,也是通常要提交到NCBI SRA数据库的文件。关于如何提交请参考生信入门:如何将测序原始数据上传NCBI



!ls -t  test*html #-t sort by modification time, newest first
test_1_fastqc.html  test_2_fastqc.html




!fastp -i test_1.fq.gz -I test_2.fq.gz -o clean_1.fq.gz -O clean_2.fq.gz
Read1 before filtering:
total reads: 2783612
total bases: 417541800
Q20 bases: 409754276(98.1349%)
Q30 bases: 398333598(95.3997%)
Read1 after filtering:
total reads: 2708145
total bases: 406146010
Q20 bases: 401516631(98.8602%)
Q30 bases: 391420330(96.3743%)
Read2 before filtering:
total reads: 2783612
total bases: 417541800
Q20 bases: 399039636(95.5688%)
Q30 bases: 376827191(90.249%)
Read2 aftering filtering:
total reads: 2708145
total bases: 406146010
Q20 bases: 392948823(96.7506%)
Q30 bases: 372542262(91.7262%)
Filtering result:
reads passed filter: 5416290
reads failed due to low quality: 149360
reads failed due to too many N: 1574
reads failed due to too short: 0
reads with adapter trimmed: 9616
bases trimmed due to adapters: 157916
JSON report: fastp.json
HTML report: fastp.html
fastp -i test_1.fq.gz -I test_2.fq.gz -o clean_1.fq.gz -O clean_2.fq.gz
fastp v0.12.2, time used: 66 seconds


!ls -t
clean_2.fq.gz  fastp.html  test_1_fastqc.html  test_1_fastqc.zip  test_1.fq.gz
clean_1.fq.gz  fastp.json  test_2_fastqc.html  test_2_fastqc.zip  test_2.fq.gz


使用SPAdes (版本:3.11) 短序列组装软件对Clean Data进行组装,经多次调整参数后获得最优组装结果;然后reads将比对回组装获得的Contig上,再根据reads的paired-end和overlap关系,对组装结果进行局部组装和优化

运行spades程序进行组装,可以自定义-k 选项获得最佳组装结果

!spades.py -k 77,87,97,117 --careful  --only-assembler
-1 clean_1.fq.gz  -2 clean_2.fq.gz  -o assembly -t 20


QUAST 用于基因组和宏基因组的拼接评估

!quast.py assembly/scaffolds.fasta  
!more quast_results/results_2019_02_23_12_05_14/report.tsv
Assembly    scaffolds
# contigs (>= 0 bp)    510
# contigs (>= 1000 bp)    18
# contigs (>= 5000 bp)    14
# contigs (>= 10000 bp)    12
# contigs (>= 25000 bp)    11
# contigs (>= 50000 bp)    9
Total length (>= 0 bp)    3421550
Total length (>= 1000 bp)    3256575
Total length (>= 5000 bp)    3245372
Total length (>= 10000 bp)    3233600
Total length (>= 25000 bp)    3216581
Total length (>= 50000 bp)    3122437
# contigs    35
Largest contig    883888
Total length    3266291
GC (%)    57.23
N50    385978
N75    363878
L50    3
L75    5
# N's per 100 kbp    0.00


基因组从头组装结果包含大量的Contigs序列以及错综复杂的连接方式,使用Bandage (a Bioinformatics Application for Navigating De novo Assembly Graphs Easily)可以方便的展示基因组组装结果的 de Bruijn图,此外还可以将基因注释结果直观的展现在组装结果上。

!Bandage image assembly/assembly_graph.fastg  assembly.png


基因组组装的de Bruijn图,图中上方构成组装的基因组草图,图中带有颜色的线表示不同的contig,断点表示出现的contig组成的分支序列。图中下方表示未能组成scaffolds的contig。




Prodigal 编码序列(CDS)

RNAmmer 核糖体RNA基因(rRNA)

Aragorn 转运RNA基因(tRNA)

SignalP 信号肽

Infernal 非编码RNA


.fna 原始输入contigs的FASTA文件(核苷酸)

.faa 翻译的编码基因的FASTA文件(蛋白质)

.ffn 所有基因组特征的FASTA文件(核苷酸)

.fsa 用于提交的Contig序列(核苷酸)

.tbl 用于提交的特征表(Feature table)

.sqn 用于提交的Sequin可编辑文件

.gbk 包含序列和注释的Genbank文件

.gff 包含序列和注释的GFF v3文件

.log 日志文件

.txt 注释汇总统计

!tree -h -L 2  -n
├── [4.0K]  annotation
│   ├── [  92]  errorsummary.val
│   ├── [ 316]  test.ecn
│   ├── [422K]  test.err
│   ├── [1.0M]  test.faa
│   ├── [2.9M]  test.ffn
│   ├── [3.3M]  test.fna
│   ├── [3.4M]  test.fsa
│   ├── [7.4M]  test.gbf
│   ├── [4.5M]  test.gff
│   ├── [ 45K]  test.log
│   ├── [ 13M]  test.sqn
│   ├── [857K]  test.tbl
│   ├── [230K]  test.tsv
│   ├── [  99]  test.txt
│   └── [3.8K]  test.val
├── [4.0K]  assembly
│   ├── [6.7M]  assembly_graph.fastg
│   ├── [3.3M]  assembly_graph_with_scaffolds.gfa
│   ├── [3.3M]  before_rr.fasta
│   ├── [3.3M]  contigs.fasta
│   ├── [ 43K]  contigs.paths
│   ├── [  68]  dataset.info
│   ├── [ 186]  input_dataset.yaml
│   ├── [4.0K]  K117
│   ├── [4.0K]  K77
│   ├── [4.0K]  K87
│   ├── [4.0K]  K97
│   ├── [4.0K]  misc
│   ├── [4.0K]  mismatch_corrector
│   ├── [1.3K]  params.txt
│   ├── [3.3M]  scaffolds.fasta
│   ├── [ 43K]  scaffolds.paths
│   ├── [144K]  spades.log
│   └── [4.0K]  tmp
├── [234M]  clean_1.fq.gz
├── [258M]  clean_2.fq.gz
├── [ 138]  do.sh
├── [470K]  fastp.html
├── [127K]  fastp.json
├── [4.0K]  quast_results
│   ├── [  27]  latest -> results_2019_02_23_12_07_03
│   ├── [4.0K]  results_2019_02_23_12_05_14
│   ├── [4.0K]  results_2019_02_23_12_06_26
│   └── [4.0K]  results_2019_02_23_12_07_03
├── [4.0K]  test_1_fastqc
│   ├── [123K]  fastqc_data.txt
│   ├── [9.9K]  fastqc.fo
│   ├── [311K]  fastqc_report.html
│   ├── [4.0K]  Icons
│   ├── [4.0K]  Images
│   └── [ 494]  summary.txt
├── [311K]  test_1_fastqc.html
├── [389K]  test_1_fastqc.zip
├── [208M]  test_1.fq.gz
├── [315K]  test_2_fastqc.html
├── [393K]  test_2_fastqc.zip
└── [231M]  test_2.fq.gz
17 directories, 41 files


基因组注释 RAST
基因岛预测 IslandViewer
毒力基因数据 VFDB
耐药基因数据 CARD


1 De novo测序

2 建库

3 PCR-free建库
对于异常GC含量(<35%,>65%)的样品,为避免常规建库使用PCR导致测序偏向性产生从而影响后期信息分析,而采用的基于非PCR反应的建库手段。对于样品量需求也大一些(>10 ug),因为建库过程没有PCR扩增过程,此外,只适用于小片段的构建。

4 Index测序
常见于混合样品测序。将不同的样品混合在一起进行测序,为区分各个样品的数据,在待测序列后加一段已知(一般8 bp)的序列作为标签(index标签)。

5 Paired-End测序

6 测序策略sequences strategy
PE100:即Paired-End (100,100),采用双末端测序法对插入片段两端进行读长为100 bp的高通量测序。

7 读长

8 插入片段长度(Insert Size)
待测基因组序列被随机打断的长度,用于下一步的文库构建,不同长度的插入片段在组装中有不同的作用,小片段(<500 bp)长度一般用于Contig级别的组装,大片段(>2 k)一般用于Scaffold级别的组装。

9 Raw data(reads)

10 Clean data(reads)

11 Duplication
两对或多对Paired-End的reads,每对reads中的read1 和read2分别对应完全一样,属于 duplication,数据处理时会去掉这样的duplication,只保留一对reads。

12 Contig序列

13 Scaffold序列
又称super Contig,通过reads的Paired-End关系将Contig连接,并用N补充其中的内洞而形成。

14 N50/N90

15 K-mer
K-mer 就是一个长度为K 的DNA 序列,K 为正整数。有时候,如K=15,也称为15-mer。K-mer 有多种用途,用于纠正测序错误,构建Contig,以及估计基因组大小,杂合率,和重复序列含量等。

16 非一致序列

17 平均测序深度(Depth)

18 Ref_genome/gene

19 基因组覆盖度

20 基因区覆盖度

21 单碱基错误率

22 GC skew


