NCBI 本地Blast+的学习记录
写在前面的话
之前下载的blast+版本为2.1.0,所以出现了以下的情况。
上网查了好多好多问题,才发现是2.1.0这个版本很有问题啊,所以就下载了最新版本的blast+,才得以完成以下的结果。
到官网上下载!!!
到官网上下载!!!
到官网上下载!!!
重要的事情说三遍!!!【所以感叹号也多打了】
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.9.0/
我的介绍比较新手,可以快速做掉你要做的不是很多的数据,很简单!!!
blast+是什么?
blast+是NCBI在推出blast之后推出的新的版本啦,所以就是有很多代码啊命令都是用不了了!【我也就因此吃了很多苦,最先的安装包不是我下载的,结果查了好多资料】
关于安装
建议安装在D:\或者E:,而C:\太复杂了,不适合我们这种新手玩,调整系统变量什么的过于麻烦。
打开cmd(命令提示符)
cd更换目录到你安装blast的位置,如上图。
然后输入blastn -version
出现这样的就说明没有问题了。
构建背景库
-
文件一定要fasta格式!!!
-
格式化命令:
makeblastdb.exe -in inputfile.fasta -parse_seqids -hash_index -dbtype nucl e.g. makeblastdb.exe -in db/seq.fasta -parse_seqids -hash_index -dbtype nucl
inputfile.fasta就是你要拿来构建背景库的文件
-parse_seqids -hash_index据说是取子序列时使用的
-dbtype后面接的是你要格式化的序列的类型,其中nucl是核酸,prot是蛋白质
序列检索比对
blastn.exe -task blastn -query 查询序列名称.fasta -db 刚刚放入的序列文件.fasta -out 输出文件名.txt -evalue 10 ###10为设置的阈值
e.g. blastn.exe -task blastn -query db/HG-U133A_2.probe_fasta -db db/seq.fasta -out result.txt
但是!!!以上这个文件特别的难以处理!!!所以!!!你要像下面的代码这么做!!!
blastn.exe -task blastn -query inputfile -db db/seq.fasta -out result.txt -outfmt 6 -evalue 0.00001
e.g. blastn.exe -task blastn -query db/HG-U133A_2.probe_fasta -db db/seq.fasta -out db/alignment.txt -outfmt 6 -evalue 0.00001
###重点在那个outfmt输出的格式!!!
解读
Score :比对得分,如果序列匹配上得分,不一样,减分,分值越高,两个序列相似性越高。
E Value :值越小,结果越可信。相对的一个统计值。这与你所使用的数据库大小有关。
Length :输入序列的长度
参考
- http://blog.sciencenet.cn/home.php?mod=space&uid=3375649&do=blog&id=1106079
- https://wenku.baidu.com/view/006558316fdb6f1aff00bed5b9f3f90f76c64d2b.html
- https://www.jianshu.com/p/e5527735f163
formatdb -i db/seq.fasta -p F -o F -n seq_db
formatdb -i protein_db_file_name -p T –o T
formatdb –i db/seq.fasta –p F –o T/F
blastall -p blastn -i db/HG-U133A_2.probe_fasta -d seq_db -w 7 -e 10 -o alignment.txt
欢迎关注我的公众号呀~