宏基因组分析流程

分析步骤宏基因组

  1. Illumina Hiseq PE150/250 测序

  2. fastx 进行原始序列统计 ==平台==

  3. Seqprep 和Sickle进行质控后数据统计,基于原始测序数据,使用相应软件对其进行数据质控,剪切掉数据中的低质量及含N的reads,获得后续分析需要的高质量序列。
  4. BWA去宿主后数据统计,去除宿主污染: Plants, Solanum_lycopersicum
  5. Multiple_Megahit 最短contig长度 ≥ 300 bp 拼接组装与基因预测。通过相应的拼接软件,选择拼接效果最佳的序列,对结果进行ORF预测。选择核酸长度大于等于100bp的基因,并将其翻译为氨基酸序列。
  6. MetaGene通过相应的拼接软件,选择拼接效果最佳的序列,对结果进行ORF预测。选择核酸长度大于等于100bp的基因,并将其翻译为氨基酸序列。
  7. CD-HIT 基因序列聚类相似度(Identity)≥ 0.95 基因序列聚类覆盖度 (Coverage)≥ 0.9。通过CD-HIT软件对样本预测出来的基因序列进行聚类,构建非冗余基因集,得到非冗余基因集基因的碱基序列。
  8. SOAPaligner 最大/最小插入片段长度:500/300 bp 基因丰度计算相似度(Identity)≥ 0.95。针对SOAPaligner比对后的信息,统计基因在各个样本中的丰度信息。
  9. Diamond 比对类型: blastp E-value ≤ 1E-5,NR物种注释基于基因的物种分类学注释,比对NR数据库获得样本物种的分类学注释信息。

  10. COG功能注释:Diamond 比对类型: blastp E-value ≤ 1E-5,比对EggNOG(evolutionary genealogy of genes: Non-supervised Orthologous Groups )数据库获得基因对应的COG注释概况并进行统计

  11. KEGG功能注释:Diamond 比对类型: blastp E-value ≤ 1E-5,比对KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库获得基因对应的KEGG注释概况并进行统计。
  12. CAZy碳水化合物活性酶注释,hmmscan 比对类型: hmmer E-value ≤ 1E-5,比对CAZy数据库(Carbohydrate-Active enZYmes Database)获得碳水化合物活性酶基因注释概况并进行统计。
  13. ARDB抗性基因功能注释,Diamond 比对类型: blastp E-value ≤ 1E-5,比对ARDB(Antibiotic Resistance Genes Database)数据库获得抗性基因基因注释概况并进行统计。
  14. CARD抗性基因功能注释,Diamond 比对类型: blastp E-value ≤ 1E-5,比对CARD(Comprehensive Antibiotic Resistance Database)数据库获得抗性基因注释概况并进行统计。
  15. VFDB毒力因子注释,Diamond 比对类型: blastp E-value ≤ 1E-5,比对VFDB数据库获得毒力因子基因注释概况并进行统计。
  • 8
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值