简介
- GATK全称Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。
- GATK4是Broad Institute公司2018年1月发布的GATK最新版本,该版本相较于上一代版本有较大改动,包含了新开发的流程和最新的基于机器学习算法的工具。
- GATK4极大的优化了性能、运算速度、接口灵活性以及可扩展性,端到端的流程即可基于本地也可运行于云端,同时基于spark开发,支持集群部署。
- GATK官方网站
样机配置
- CPU
鲲鹏920
- 系统
openEuler 20.03 (LTS)
- 内核
4.19.90-2003.4.0.0036.oe1.aarch64
路径规划
- 选定根目录如
$root
mkdir -p $root && cd $root mkdir GATK BLAT SAMTOOLS APP
复制
软件下载
-
GATK : 4.0.0.0
cd $root/GATK && wget https://github.com/broadinstitute/gatk/releases/download/4.0.0.0/gatk-4.0.0.0.zip
复制 -
BLAT : 35.1
cd $root/BLAT && wget https://codeload.github.com/djhshih/blat/tar.gz/v35.1
复制 -
SAMTOOLS : 0.10
详见
-
BWA : 0.7.17
详见
-
HADOOP : 3.1.2
详见
-
SPARK : 2.44
详见
基础环境依赖
- 详见
环境部署
-
依赖
yum install -y java-1.8.0-openjdk-devel.aarch64 ncurses-devel.aarch64 bzip2-devel.aarch64
复制 -
BLAT
# 解压 BLAT 压缩包 cd $root/BLAT && mv v35.1 blat-35.1.tar.gz && tar -zxvf blat-35.1.tar.gz # 进入源码目录 cd blat-35.1/ # 声明安装环境变量(本CLI ssh连接有效) export MACHTYPE=aarch64 # 编译 make # 环境变量 echo "# BLAT" >> /etc/profile echo "export PATH=$root/BLAT/blat-35.1/bin:$PATH" >> /etc/profile echo "# End BLAT" >> /etc/profile # 重新加载环境变量 source /etc/profile
复制 -
GATK
# 解压 GATK 压缩包 cd $root/GATK && unzip gatk-4.0.0.0.zip # 环境变量 echo "# GATK" >> /etc/profile echo "export PATH=$root/GATK/gatk-4.0.0.0:$PATH" >> /etc/profile echo "# End GATK" >> /etc/profile # 重新加载环境变量 source /etc/profile # 验证 gatk -help