BUSCO安装及使用（生物信息学工具-019）

让学习成为一种生活方式

已于 2024-05-24 00:36:48 修改

阅读量4.2k

点赞数 12

分类专栏：生物信息学基因组转录组文章标签：数据库

于 2024-05-24 00:35:41 首次发布

本文链接：https://blog.csdn.net/weixin_44874487/article/details/139160524

版权

生物信息学同时被 3 个专栏收录

137 篇文章

订阅专栏

基因组

95 篇文章

订阅专栏

转录组

21 篇文章

订阅专栏

01 背景

Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较，得到有多少比例的数据库能够有比对，比例越高代表基因组完整度越好。基于进化信息的近乎全基因单拷贝直系同源基因内容预期，BUSCO指标是对像N50这样的技术指标的补充。

可以评估多种数据类型：

组装的基因组、转录组及注释到的基因对应的氨基酸序列等
使用需要评估的生物类别所属的数据库（从busco数据库下载）比对，得出比对上数据库的完整性比例的信息。

02 参考

https://busco.ezlab.org/   #官网
https://busco-data.ezlab.org/v5/data/lineages/    #数据库地址

03 安装

方法1
git clone https://gitlab.com/ezlab/busco.git
cd busco
python3 setup.py install --user
./bin/busco -h

方法2
conda create --name  busco
conda activate  busco
conda install -c conda-forge -c bioconda busco=5.6.0 

或者使用mabma
mamba install busco
mamba update busco

04 使用

用法: busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [其他选项]

欢迎使用 BUSCO 5.6.0：基准测试通用单拷贝直系同源基因评估工具。
有关更详细的使用信息，请查看此发行版附带的README文件和BUSCO用户指南。访问此页面 https://gitlab.com/ezlab/busco#how-to-cite-busco 了解如何引用BUSCO。

可选参数：
  -i SEQUENCE_FILE, --in SEQUENCE_FILE
                        输入序列文件，格式为FASTA。可以是组装的基因组或转录组（DNA），或注释基因集的蛋白质序列。也可以使用包含多个输入文件的目录路径。
  -o OUTPUT, --out OUTPUT
                        为您的分析运行指定一个易于识别的短名称。输出文件夹和文件将用此名称标记。输出文件夹的路径由 --out_path 设置。
  -m MODE, --mode MODE  指定运行的BUSCO分析模式。
                        有三种有效模式：
                        - geno 或 genome，用于基因组组装（DNA）
                        - tran 或 transcriptome，用于转录组组装（DNA）
                        - prot 或 proteins，用于注释基因集（蛋白质）
  -l LINEAGE, --lineage_dataset LINEAGE
                        指定要使用的BUSCO谱系的名称。
  --augustus            使用 augustus 基因预测器进行真核生物运行
  --augustus_parameters --PARAM1=VALUE1,--PARAM2=VALUE2
                        向 Augustus 传递额外参数。所有参数应包含在一个字符串中且不含空格，每个参数之间用逗号分隔。
  --augustus_species AUGUSTUS_SPECIES
                        指定一个用于 Augustus 训练的物种。
  --auto-lineage        运行自动谱系以找到最佳谱系路径
  --auto-lineage-euk    仅在真核生物树上运行自动放置以找到最佳谱系路径
  --auto-lineage-prok   仅在非真核生物树上运行自动谱系以找到最佳谱系路径
  -c N, --cpu N         指定要使用的线程/核心数量（N=整数）。
  --config CONFIG_FILE  提供配置文件
  --contig_break n      表示片段之间断裂的连续 Ns 数。默认值为 n=10。
  --datasets_version DATASETS_VERSION
                        指定BUSCO数据集的版本，例如odb10
  --download [dataset ...]
                        下载数据集。可能的值是特定数据集名称、“all”、“prokaryota”、“eukaryota”或“virus”。如果与其他命令行参数一起使用，请确保将其最后放置。
  --download_base_url DOWNLOAD_BASE_URL
                        设置远程BUSCO数据集位置的URL
  --download_path DOWNLOAD_PATH
                        指定存储BUSCO数据集下载内容的本地文件路径
  -e N, --evalue N      BLAST搜索的E值截止。允许的格式为0.001或1e-03（默认值：1e-03）
  -f, --force           强制重写现有文件。必须在提供名称的输出文件已存在时使用。
  -h, --help            显示此帮助信息并退出
  --limit N             每个BUSCO考虑的候选区域（片段或转录本）数量（默认值：3）
  --list-datasets       打印可用BUSCO数据集的列表
  --long                优化 Augustus 自训练模式（默认：关闭）；显著增加运行时间，但可能改善某些非模式生物的结果
  --metaeuk_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
                        向 Metaeuk 第一次运行传递额外参数。所有参数应包含在一个字符串中且不含空格，每个参数之间用逗号分隔。
  --metaeuk_rerun_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
                        向 Metaeuk 第二次运行传递额外参数。所有参数应包含在一个字符串中且不含空格，每个参数之间用逗号分隔。
  --miniprot            使用 miniprot 基因预测器
  --skip_bbtools        跳过BBTools进行组装统计
  --offline             指示BUSCO不能尝试下载文件
  --opt-out-run-stats   选择退出数据收集。有关收集数据的信息，请参阅用户指南。
  --out_path OUTPUT_PATH
                        结果文件夹的可选位置，不包括结果文件夹名称。默认是当前工作目录。
  -q, --quiet           禁用信息日志，仅显示错误
  -r, --restart         继续已部分完成的运行。
  --scaffold_composition
                        将每个脚手架的ACGTN内容写入文件 scaffold_composition.txt
  --tar                 压缩一些包含大量文件的子目录以节省空间
  --update-data         下载并用最新版本替换所有谱系数据集和自动选择所需的文件
  -v, --version         显示此版本并退出

05 常用命令行

基因组
busco -i /path/to/canu_removedup.fa -r -o canu_remdup --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline

这行命令依赖metaeuk寻找可能的编码区，还可以通过augustus进行：

busco -i /path/to/canu_removedup.fa -r -o canu_remdup_augus --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline --augustus

转录组
run_BUSCO.py -i /longest_isoform.fasta -l ./odb10/ -o HCZX_OUTPUT -m tran -c 48
# 参数详解
run_BUSCO.py -i [组装的文件.fasta]  -l  [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]
# -i 输入文件
# -l BUSCO的数据库文件
# -o 输出的文件名的后缀以及文件夹的名称
# -m 分析类型（genome、transcriptome、proteins）
# --cpu 线程数

结果画图

generate_plot.py -wd ./