RepeatModeler2.0.4的安装和使用(包含RepeatMasker安装)-2023.07更新

RepeatModeler的安装和使用(包含RepeatMasker安装)-2023.07更新

nym 2023-07-19

一、环境要求

Perl 5.8.8 or higher
本教程安装软件版本:rmblast 2.14.0+,TRF 4.10,RECON,RepeatScout 1.0.6,RepeatMasker 4.1.5,GenomeTools 1.6.2,LTR_Retriever v2.9.6,Ninja 0.95-cluster_only, MAFFT 7.453,CD-HIT 4.8.1 )

二、RepeatMasker官网地址(http://www.repeatmasker.org/)
安装RepeatMasker需要TRF、rmblast
1、TRF的安装
#下载编译
git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF
mkdir build
cd build
../configure
make
#To install to system
sudo make install
2、rmblast-2.14.0的安装
#下载
wget http://www.repeatmasker.org/rmblast/rmblast-2.14.0+-x64-linux.tar.gz
tar -xzvf rmblast-2.14.0+-x64-linux.tar.gz
#添加环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/rmblast-2.14.0/bin"
3.RepeatMasker4.1.5.的配置
3.1 RepeatMasker安装
#下载
wget http://www.repeatmasker.org/RepeatMasker/RepeatMasker-4.1.5.tar.gz
tar xzvf RepeatMasker-4.1.5.tar.gz
3.2 数据库配置:Dfam3.7数据库与Repbase与合并
#Dfam数据库下载
cd ~/biosoft/RepeatMasker/Libraries
wget https://www.dfam.org/releases/Dfam_3.7/families/Dfam.h5.gz
wget https://www.dfam.org/releases/Dfam_3.7/families/Dfam.h5.gz.md5sum
#注:Dfam3.7数据库未经筛选的版本数据量较大,压缩文件为83G,解压缩后有700多个G,可以根据需求进行数据库的下载。
gunzip Dfam.h5.gz
#Repbase数据库。解压缩并将两个文件拷贝至~/RepeatMasker/Libraries文件夹中(Repbase数据库收费,现在网络上可以找到一些旧版本,RepBaseRepeatMaskerEdition-20181026.tar)
tar -xzvf RepBaseRepeatMaskerEdition-20181026.tar.gz
3.2编译RepeatMasker
cd ~/biosoft/RepeatMasker
perl ./configure
#按照步骤,如果前面添加了环境变量会直接显示默认的地址,如果没有,复制添加即可。最后选择5.Done
#添加环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/RepeatMasker"
三、其他所需软件安装
1.RECON安装
#下载编译
wget http://www.repeatmasker.org/RepeatModeler/RECON-1.08.tar.gz
tar -xzvf RECON-1.08.tar.gz
cd RECON-1.08/src
make
#添加环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/RECON-1.08/src"
2.RepeatScount安装
#下载编译
wget -c http://www.repeatmasker.org/RepeatScout-1.0.6.tar.gz
tar -zxvf RepeatScout-1.0.6.tar.gz
cd RepeatScout-1.0.6
make
#添加环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/RepeatScout-1.0.6"
3.USUC工具 :twoBitToFa, faToTwoBit, and twoBitInfo
#下载
wget https://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/twoBitInfo
wget https://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/faToTwoBit
wget https://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/twoBitToFa
#不用编译,可添加环境变量
四、可选安装
1.LtrHarvest
#下载编译
wget http://genometools.org/pub/genometools-1.6.2.tar.gz
tar -zxvf genometools-1.6.2.tar.gz
cd genometools-1.6.2
make threads=yes
#添加环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/genometools-1.6.2/bin"
2.Ltr_retriever
#下载
git clone https://github.com/oushujun/LTR_retriever.git
#添加环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/LTR_retriever"
3.MAFFT(略)
4.CD-HIT
#下载编译
git clone https://github.com/weizhongli/cdhit.git
cd cdhit
make
#添加环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/cdhit"
5.Ninja
#下载编译
wget https://codeload.github.com/TravisWheelerLab/NINJA/tar.gz/refs/tags/0.95-cluster_only
tar -zxvf NINJA-0.95-cluster_only.tar.gz
cd NINJA-0.95-cluster_only
cd NINJA
make all 
#添加环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/NINJA-0.95-cluster_only/NINJA"
五、Repeatmodeler安装
下载安装
git clone https://github.com/Dfam-consortium/RepeatModeler.git
cd RepeatModeler
perl ./configure
报错:缺失perl模块,进行安装
#The following perl modules required by RepeatModeler are missing from
#your system.  Please install these first:
#JSON
#Devel::Size
cpan JSON
cpan Devel::Size
#设置各安装文件位置,如果前面添加了环境变量会显示默认的地址,如果没有,复制添加即可。
将RepeatModeler添加至环境变量
vim ~/.bashrc
文件末尾添加:
export PATH="$PATH:~/biosoft/RepeatModeler"
#安装成功
六、RepeatModeler运行

1.建立数据库
BuildDatabase -name SamX -engine ncbi SamX.fasta
2.运行RepeatModeler

nohup RepeatModeler -database SamX -threads 18 -engine ncbi -LTRStruct -genomeSampleSizeMax 1000000000 -quick &
#nohup...& 将任务挂至后台运行并产生.out运行文件
#-threads 程序运行可使用的最大并行线程数
#-recoverDir 失败运行结果的输出目录,程序将尝试恢复并继续运行。
#-LTRStruct (可选)运行LTR结构探索管道(LTR_Harvest和ltr_retrever),并将结果与RepeatScout/RECON管道结合。
#-genomeSampleSizeMax 可选地改变RECON的最大样本大小(bp)(默认值:5轮270MB,或“-quick”选项6轮243MB)。
#-numAdditionalRounds 可选地增加轮数。额外轮的样本量将根据大小倍率改变(目前为3)。
#-quick 恢复到原来的样本量(2.0.4之前),允许以更快的速度获得类似的灵敏度。

2.结果文件
RM_XXXXXX* : 运行过程中产生的过程文件,如果程序中断,可从该文件夹进行重连。
*-families.fa : 预测的重复序列库
*-families.stk : Seed alignments,可以提交到 Dfam 数据库的Stockholm-formatted文件
*-rmod.log : 运行日志

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值