NCBI下载nt/nr/swissprot库

NCBI下载nt/nr/swissprot库

1. 确定这些数据库文件的位置:

位置:https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
请添加图片描述

补充:两种nt/nr/swissprot库文件

①地址:https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/,下载的是整个NT库的序列文件(fasta格式),后续使用需要makeblastdb建库
②地址:https://ftp.ncbi.nlm.nih.gov/blast/db/,下载的是已经makeblastdb后的NT库文件,而且被分割成很多小文件,你将这些小文件都解压到同一目录下,会生成一个总的已经makeblastdb后的NT库文件
③地址:https://ftp.ncbi.nlm.nih.gov/blast/db/,还有其他的库文件。例如16S、18S、28S、mito、human、mouse、plant等之类的特殊库文件

2. 下载

2.1方法一:使用wget

cd /home/zhaohuiyao/Database/nt/
wget https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz

2.2 方法二:使用ascp

cd /home/zhaohuiyao/Database/nt/
/home/zhaohuiyao/.aspera/connect/bin/ascp -v -QT -l 400m -k1 -i /home/zhaohuiyao/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./

2.3 方法三:使用Aspera_cli

cd /home/zhaohuiyao/Database/nt/
conda activate aspera-cli
ascp -i /home/zhaohuiyao/miniconda3/pkgs/aspera-cli-3.9.6-h5e1937b_0/etc/asperaweb_id_dsa.openssh -l 200M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
conda deactivate

2.4 Aspera和Aspera_cli软件的安装,查看另一篇文章——Aspera和Aspera_cli软件的安装和使用

3. 举例:NT库下载流程

3.1 情况1:下载的是fasta格式

cd /home/zhaohuiyao/Database/nt/
wget https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz
wget https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz.md5
#或者
conda activate aspera-cli
ascp -i /home/zhaohuiyao/miniconda3/pkgs/aspera-cli-3.9.6-h5e1937b_0/etc/asperaweb_id_dsa.openssh -l 200M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
ascp -i /home/zhaohuiyao/miniconda3/pkgs/aspera-cli-3.9.6-h5e1937b_0/etc/asperaweb_id_dsa.openssh -l 200M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz.md5 ./
conda deactivate

md5sum -c nt.gz.md5 #数据传输完整
gunzip -c ./nt.gz > ./nt.fa
#参数-c:保留原文件。解压到指定文件nt.fa
makeblastdb -in nt.fa -dbtype nucl -parse_seqids -out nt
blastn -num_threads 32 -max_target_seqs 10 -evalue 1e-05 -db /home/zhaohuiyao/Database/nt/nt -outfmt “7 qseqid sseqid evalue pident ppos length mismatch gapopen qstart qend sstart send bitscore staxid sscinames stitle” -query ./test.fa -out ./test.blastn.out

3.2 情况2:下载的是makeblastdb的库文件

cd /home/zhaohuiyao/Database/nt/
mkdir -p ./nt			#存放解压后的文件
#共000~114个nt文件,编辑download_nt.sh,全部下载
#!/bin/bash
echo "download nt start on `date`"
cd /home/zhaohuiyao/Database/nt/
for i in {000..114}
do
	wget https://ftp.ncbi.nlm.nih.gov/blast/db/nt.${i}.tar.gz ./
	wget https://ftp.ncbi.nlm.nih.gov/blast/db/nt.${i}.tar.gz.md5 ./
	md5sum -c ./nt.${i}.tar.gz.md5
	tar -zxvf ./nt.${i}.tar.gz -C ./nt/
	echo "nt.${i} has done."
done
echo "download nt end on `date`"

nohup /bin/bash ./download_nt.sh &
#查看目录/home/zhaohuiyao/Database/ny/nt下内容,下载完成
#查看文件nohup.out,查看是否所有都完成。grep "has done" ./nohup.out
nt.00 has done.
nt.01 has done.
nt.02 has done.
...
nt.74 has done.

#若觉得占空间,可以将下载nt.XX.tar.gz和nt.XX.tar.gz.md5进行删除
cd /home/zhaohuiyao/Database/nt/
rm nt.XX.tar.gz
rm nt.XX.tar.gz.md5

blastn -num_threads 32 -max_target_seqs 10 -evalue 1e-05 -db /home/zhaohuiyao/Database/nt/nt/nt -outfmt "7 qseqid sseqid evalue pident ppos length mismatch gapopen qstart qend sstart send bitscore staxid sscinames stitle" -query ./test.fa -out ./test.blastn.out

4. 下载注意事项

4.1 针对方法一:使用wget

①wget支持断点续传,若因为网络问题中断下载,可执行wget -c https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz,从而再次下载。但是我没有试过,担心有问题,会重新下载

②如若使用命令:wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz,进行下载。但是注意下载的nt.gz文件是不能解压的(根本无法使用,等于白干了~~血泪教训)

有图有真相

这是下载的ftp,所以在解压时,出错
在这里插入图片描述
在这里插入图片描述
只能重新下载,使用https,进行加压
请添加图片描述
请添加图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值