BUSCO安装及使用(生物信息学工具-019)

01 背景

Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。基于进化信息的近乎全基因单拷贝直系同源基因内容预期,BUSCO指标是对像N50这样的技术指标的补充。

可以评估多种数据类型:

组装的基因组、转录组及注释到的基因对应的氨基酸序列等
使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。

02 参考
https://busco.ezlab.org/   #官网
https://busco-data.ezlab.org/v5/data/lineages/    #数据库地址
03 安装
方法1
git clone https://gitlab.com/ezlab/busco.git
cd busco
python3 setup.py install --user
./bin/busco -h

方法2
conda create --name  busco
conda activate  busco
conda install -c conda-forge -c bioconda busco=5.6.0 

或者使用mabma
mamba install busco
mamba update busco
04 使用
用法: busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [其他选项]

欢迎使用 BUSCO 5.6.0:基准测试通用单拷贝直系同源基因评估工具。
有关更详细的使用信息,请查看此发行版附带的README文件和BUSCO用户指南。访问此页面 https://gitlab.com/ezlab/busco#how-to-cite-busco 了解如何引用BUSCO。

可选参数:
  -i SEQUENCE_FILE, --in SEQUENCE_FILE
                        输入序列文件,格式为FASTA。可以是组装的基因组或转录组(DNA),或注释基因集的蛋白质序列。也可以使用包含多个输入文件的目录路径。
  -o OUTPUT, --out OUTPUT
                        为您的分析运行指定一个易于识别的短名称。输出文件夹和文件将用此名称标记。输出文件夹的路径由 --out_path 设置。
  -m MODE, --mode MODE  指定运行的BUSCO分析模式。
                        有三种有效模式:
                        - geno 或 genome,用于基因组组装(DNA)
                        - tran 或 transcriptome,用于转录组组装(DNA)
                        - prot 或 proteins,用于注释基因集(蛋白质)
  -l LINEAGE, --lineage_dataset LINEAGE
                        指定要使用的BUSCO谱系的名称。
  --augustus            使用 augustus 基因预测器进行真核生物运行
  --augustus_parameters --PARAM1=VALUE1,--PARAM2=VALUE2
                        向 Augustus 传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
  --augustus_species AUGUSTUS_SPECIES
                        指定一个用于 Augustus 训练的物种。
  --auto-lineage        运行自动谱系以找到最佳谱系路径
  --auto-lineage-euk    仅在真核生物树上运行自动放置以找到最佳谱系路径
  --auto-lineage-prok   仅在非真核生物树上运行自动谱系以找到最佳谱系路径
  -c N, --cpu N         指定要使用的线程/核心数量(N=整数)。
  --config CONFIG_FILE  提供配置文件
  --contig_break n      表示片段之间断裂的连续 Ns 数。默认值为 n=10。
  --datasets_version DATASETS_VERSION
                        指定BUSCO数据集的版本,例如odb10
  --download [dataset ...]
                        下载数据集。可能的值是特定数据集名称、“all”、“prokaryota”、“eukaryota”或“virus”。如果与其他命令行参数一起使用,请确保将其最后放置。
  --download_base_url DOWNLOAD_BASE_URL
                        设置远程BUSCO数据集位置的URL
  --download_path DOWNLOAD_PATH
                        指定存储BUSCO数据集下载内容的本地文件路径
  -e N, --evalue N      BLAST搜索的E值截止。允许的格式为0.001或1e-03(默认值:1e-03)
  -f, --force           强制重写现有文件。必须在提供名称的输出文件已存在时使用。
  -h, --help            显示此帮助信息并退出
  --limit N             每个BUSCO考虑的候选区域(片段或转录本)数量(默认值:3)
  --list-datasets       打印可用BUSCO数据集的列表
  --long                优化 Augustus 自训练模式(默认:关闭);显著增加运行时间,但可能改善某些非模式生物的结果
  --metaeuk_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
                        向 Metaeuk 第一次运行传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
  --metaeuk_rerun_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
                        向 Metaeuk 第二次运行传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
  --miniprot            使用 miniprot 基因预测器
  --skip_bbtools        跳过BBTools进行组装统计
  --offline             指示BUSCO不能尝试下载文件
  --opt-out-run-stats   选择退出数据收集。有关收集数据的信息,请参阅用户指南。
  --out_path OUTPUT_PATH
                        结果文件夹的可选位置,不包括结果文件夹名称。默认是当前工作目录。
  -q, --quiet           禁用信息日志,仅显示错误
  -r, --restart         继续已部分完成的运行。
  --scaffold_composition
                        将每个脚手架的ACGTN内容写入文件 scaffold_composition.txt
  --tar                 压缩一些包含大量文件的子目录以节省空间
  --update-data         下载并用最新版本替换所有谱系数据集和自动选择所需的文件
  -v, --version         显示此版本并退出
05 常用命令行
基因组
busco -i /path/to/canu_removedup.fa -r -o canu_remdup --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline

这行命令依赖metaeuk寻找可能的编码区,还可以通过augustus进行:

busco -i /path/to/canu_removedup.fa -r -o canu_remdup_augus --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline --augustus

转录组
run_BUSCO.py -i /longest_isoform.fasta -l ./odb10/ -o HCZX_OUTPUT -m tran -c 48
# 参数详解
run_BUSCO.py -i [组装的文件.fasta]  -l  [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]
# -i 输入文件
# -l BUSCO的数据库文件
# -o 输出的文件名的后缀以及文件夹的名称
# -m 分析类型(genome、transcriptome、proteins)
# --cpu 线程数

结果画图

generate_plot.py -wd ./
06 参考文献

Mosè Manni, Matthew R Berkeley, Mathieu Seppey, Felipe A Simão, Evgeny M Zdobnov, BUSCO Update: Novel and Streamlined Workflows along with Broader and Deeper Phylogenetic Coverage for Scoring of Eukaryotic, Prokaryotic, and Viral Genomes. Molecular Biology and Evolution, Volume 38, Issue 10, October 2021, Pages 4647–4654

Manni, M., Berkeley, M. R., Seppey, M., & Zdobnov, E. M. (2021). BUSCO: Assessing genomic data quality and beyond. Current Protocols, 1, e323. doi: 10.1002/cpz1.323

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值