欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
编者按:我经常打比方说,生物数据挖掘探索这个过程很像是做菜,同样的食材,不同的厨师会做出不同的东西。但不管怎么样,巧妇也难为无米之炊,首先必须有食材(生物数据)。其实,一个完整的生物信息分析,约80%-90%的时间和工作量都是在做前期准备上,所以,正确下载合适的数据是非常重要的功能,那么从本次开始,我们将通过一系列的文章,详细介绍各种生物数据的下载工作,包括数据的查找,下载,校验,同步等等问题……
一、生物数据检索
下载生物数据最重要的工作,就是获得数据准备的下载地址,那么有了地址之后,就可以选择多种方式进行下载了。生物数据其实都是存在于世界某个地方的一台服务器中,首先需要获取服务器的地址,然后是数据在服务器中具体的路径,例如nr数据库:
#服务器IP地址为:
ftp://ftp.ncbi.nlm.nih.gov/
#文件在服务器中的路径为:
/blast/db/FASTA/nr.gz
#那么nr数据库的全部下载地址就为
ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
有了这个地址之后就可以使用多种下载工具进行下载了。例如使用sftp工具,ftp工具,wget命令等等方法。所以,我们应该清楚生物数据的具体存储位置,这个就需要平时多总结,以及会使用搜索引擎进行搜索才行,因为生物数据分为多种格式,分布与世界各地,很多时候只能多去总结。下面我们介绍几个常用的生物数