本文“植物微生物组”公众号原创,ID: plantmicrobiome
作者:zhiwen
一、宏基因组核心思想
- 鉴定菌群组成
- 鉴定菌群内基因组成
- 鉴定功能基因组成
- 菌群之间的关系
- 菌群和宿主之间的关系
二、宏基因组的实验思路及流程
1. 实验设计、取样测序
1. 数据质控(宿主序列过滤)
1. 序列分析
- reads组装成contig、scaffold
- 组装结果评估
- 组装结果基因注释
- 不比对估计基因丰度
- 比对估计基因丰度
- Contig分箱
- 分箱结果评估
- 分箱结果可视化
4. 深入数据挖掘分析
5. 实验验证
三、宏基因组生信分析环境部署
- 测序数据过滤的软件:
检测数据质量 Fastqc
合并检测报告 MultiQC
过滤接头、低质量序列 Trimmoatic
过滤高覆盖度低丰度的kmer khmer
安装方式:
conda install khmer=2.1.2
- 序列组装的软件:
==Megahit、 Metaspades==,Minia, Meraga, Ray Meta15,Velour
安装方式:
conda install megahit=1.1.3
conda install spades=3.12.0
- 组装结果评估软件:
Sourmash
安装方式:
conda install sourmash=2.0.0a8
- 组装结果基因注释的软件:
Prokka、Prodigal
安装方式
conda install prokka=1.13
conda install prodigal=2.6.3
- 不比对估计基因丰度的软件:
conda install salmon=0.7.2
- 比对估计基因丰度的软件:
bowtie2、samtools、bedtools
安装方式:
conda install bowtie2=2.3.4.1
conda install bedtools=2.25.0
conda install samtools=1.3.1
- 组装结果分箱的软件包括:
基于contig分箱:==Maxbin、MetaBAT==、MetaWatt、CONCOCT、MyCC
安装方式:
curl https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz
tar xzvf MaxBin-2.2.2.tar.gz
cd MaxBin-2.2.2/src
make
添加环境变量
curl -L https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz
tar xvf metabatv0.32.4.tar.gz
添加环境变量
- 分箱后评估的软件:
checkm
安装方式:
conda create -n checkm checkm=1.0.11
- 分箱后可视化软件:
vizbin
安装方式:
windows下在浏览器中输入 https://github.com/claczny/VizBin/blob/master/VizBin-dist.jar?raw=true
-估计物种丰度的软件
Metaphlan、Karken
安装方式:
Metaphlan
wget https://bitbucket.org/biobakery/metaphlan2/get/default.zip
tar xzvf biobakery-metaphlan2-<versioned>.tar.gz
cd biobakery-metaphlan2-<versioned>/
添加环境变量
Karken
conda create -n kraken=1.0
karken db 下载 wget -c https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz
- 组装和分箱结果的可视化:Anvio
安装方式
conda create -n anvio anvio=4.0.0
数据库
## eggnog对应的细菌数据库下载
download_eggnog_data.py bact
## silva 原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)
axel https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta.gz
## nr非冗余数据库
# 结合diamond进行nr库比对
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz.md5
# https://github.com/bbuchfink/diamond
# diamond makedb --in nr.faa -d nr
## MEGAN注释文件
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/prot_acc2tax-Mar2018X1.abin.zip
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/SSURef_NR99_128_tax_silva_to_NCBI_synonyms.map.gz
## kaiju物种注释文件
# Representative genomes from proGenomes
makeDB.sh -p -v
# Non-redundant protein database nr
makeDB.sh -n
##karken 注释文件
kraken2-build --standard --threads 24 --db kraken