公共数据库挖掘及数据下载

公共数据库挖掘

1. 国家基因组科学数据中心(NGDC):Home - National Genomics Data Center

2. EBI下载:ENA Browser

ENA是欧洲的生物测序数据库网站,在https://www.ebi.ac.uk/ena/browser/home 网址,输入文章提供数据的id。

3. GSA

GSA (Genome Sequence Archive)是2015年底,中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。数据模型和数据格式遵照INSDC标准,在功能上等同于NCBI的SRA,EBI的ENA和DDBJ的DRA。

4.  CNGBdb

5. NCBI 下载

到 NCBI SRA 数据库中搜索SRP编号,如 :SRP056687,就可以得到数据列表。

这个数据怎么下载呢?

有很多种操作,最方便的是在服务器上使用sra-tools 里的 prefetch命令。另外推荐使用 aspera,比FTP快多了,具体操作后边会介绍。

如何用aspera从NCBI上下载SRA数据

  • 获取BioProject
  • 获取到下载表单
  • aspera下载数据

一、获取BioProject
 

点击SRA Run Selector 跳转并获取BioProject

二、获取到下载表单

通过在EBI上查询需要下载的list


一定注意在这个地方我通过aspera下载,所以在Read Files处需要勾选几个选项

如果想验证数据完整性,fastq md5也要勾上

下载TSV文件


获取到了TXV文件后我们需要对内容修改成我们需要的格式,首先文件格式是.TXT 使用EXCEL打开,处理成下图所示的文件

处理步骤如下:
1、打开下载的.TXT文件,图中红色方框中的数据是我们需要的数据,其他列如无需要可以删除。


2、用excel将fasp.sra.ebi.ac.uk:直接替换成空

3、将该文件保存为txt格式,使用sed命令把;替换为换行符:sed -i.bak 's/;/\n/g' file_name.txt


三、aspera下载数据

  • 简介:Aspera是一款高速传输软件,不受文件大小,网络条件等影响,速度比HTP和FTTP协议快数百倍。Windows和Linux系统均可下载使用。

1.下载Aspera-connec:wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz 
2.解压缩:tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
3.运行:sh aspera-connect-3.6.2.117442-linux-64.sh
(此时在home目录下会生成 `.aspera` 的隐藏文件,使用 ls -a 命令可查看)
4.添加环境变量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >>~/.bashrc  #正确的添加应该是 vim ~/.bashrc ,然后在最后加上export PATH=“~/.aspera/connect/bin:$PATH”,最后 source ~/.bashrc
5.使其生效:source ~/.bashrc
6.拷贝秘钥文件:cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
7.拷贝协议文件:sudo cp ~/.aspera/connect/etc/aspera-license /usr/local/bin/

批量下载数据;准备链接索引文件(sra_list.txt),运行以下代码:

ascp -T -i <path>//asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./sra_list.txt ./

如需下载后台运行,可以使用 nohup  &命令;如需前台转后台运行,查看往期文章:CSDNicon-default.png?t=N7T8https://mp.csdn.net/mp_blog/creation/editor/133003205

具体命令如:

nohup ascp -T -i /home/myname/.aspera/connect/etc/asperaweb_id_dsa.openssh -v -k 1 -P33001 -l 200m --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp  --file-list /data/myname/feather/datalist/YELLOW/YELLOW_SRR_LIST.txt /data/myname/feather/datalist/YELLOW &

Aspera命令行工具的使用:ascp [参数] 目标文件 目的地址

ascp常用参数:

-T ---- 取消加密。若不添加此参数,可能会下载不了。 
-i ---- 输入私钥,一般不要少。安装 aspera 后在目录 ~/.aspera/connect/etc/ 下有几个私钥, 使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
-l string ----- 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。 若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高

--P 用于SSH身份验证的TCP端口,一般是33001
-k ---- 断点续传 ,一般设置为1
-v ---- 可以实时知道程序在做什么,方便查错
-Q --- 一般加上吧
--host=string --- ftp的host名(NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为 fasp.sra.ebi.ac.uk)
--user=string --- 用户名(NCBI的为anonftp,EBI的为era-fasp)
--mode=string --- 选择模式,上传为 send,下载为 recv。 
--file-list --- 批量下载SRA文件的路径​​​​​​​

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
主题数据库分析挖掘系统参数全文共4页,当前为第1页。主题数据库分析挖掘系统参数全文共4页,当前为第1页。项目需求与服务方案要求 主题数据库分析挖掘系统参数全文共4页,当前为第1页。 主题数据库分析挖掘系统参数全文共4页,当前为第1页。 一、项目概述 信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。采供血行业从1998年献血法颁布至今已经发展了近20年,产生了海量的数据,然而这些数据并没有得到深入的挖掘和应用。 山东省血液中心为了更好的服务于采供血事业,利用近20年所产生的血液信息数据,充分利用现阶段大数据技术资源及优势,建立相关血液信息大数据分析系统。通过该分析系统的建设,提高省血液中心采供血工作的精准性及指导性,全面保证血液质量及输血安全。 二、建设依据 《促进大数据发展行动纲要》(国发〔2015〕50 号) 《信息安全等级保护管理办法》(公通字〔2007〕43号) 《涉及国家秘密的信息系统分级保护管理办法》(国保发〔2005〕16号)。 《中华人民共和国献血法》1998年 《中华人民共和国献血法》释义 1998年 《血站质量管理规范》 《血站实验室质量管理规范》 《全国无偿献血表彰奖励办法》 《临床输血技术规范》 《血站技术操作 程》 《信息技术 包过滤防火墙安全技术要求》(GB/T 18019-1999) 《信息安全技术-信息系统安全管理要求》(GBT20269-2006) 《信息安全技术-信息安全管理实用规则》(GBT19176-2005) 《国家公共卫生信息系统建设方案》 三、建设目标 1、建立大数据分析系统,通过数据整合,提升血液中心及整体行业治理能力; 2、为省、市主管领导及血液中心主管领导提供数据分析支持和决策依据; 主题数据库分析挖掘系统参数全文共4页,当前为第2页。主题数据库分析挖掘系统参数全文共4页,当前为第2页。3、建设血液信息化行业大数据发展和应用统筹协调机制,为实现全国血液大数据进行创新性尝试; 主题数据库分析挖掘系统参数全文共4页,当前为第2页。 主题数据库分析挖掘系统参数全文共4页,当前为第2页。 4、根据项目建设效果及结果评估,进行配套行业标准规范体系的建设; 四、建设内容 利用现阶段大数据技术手段进行省血液中心大数据分析系统建设; 利用现阶段血液管理系统相关数据,进行大数据系统数据分析及模型建立; 根据不同业务分析方向建设满足与现阶段血液中心需求的数据提取及分析系统; 五、技术要求 1、系统架构要求 事务处理型应用和分析决策型应用对数据库系统的性能要求不同。事务处理型应用的特点是数据存取操作频率高,每日进行成千上万的输入、修改等记录操作,但每次操作处理的时间短,一般是多个用户同时使用系统资源,采用传统事务处理型应用运行良好。而在分析决策型应用中,为了获取综合性的、有用的决策信息,应用系统可能需要连续运行几个小时、甚至更多时间进行必要的计算,大量的占用系统资源。如果将分析决策型应用与事务型应用共同放在同一数据库系统环境中,必然引起系统资源紧张,甚至使事务型应用瘫痪。最后一个问题是在传统数据库系统中保存和管理的一般是当前数据,即使部分历史数据通过备份或历史数据库的形式保存了下来,却被普遍束之高阁,并没有得到充分的利用。而决策支持系统不仅需要当前的数据信息,而且还要求有大量的历史数据,尤其是需要对历史数据进行分析和比较,找出行业发展变化的趋势。就这一点而言,传统数据库系统也不能满足分析决策应用的需要。基于以上的论述可以得出结论,在事务处理型应用环境中直接构建分析决策型应用是不可行的。不论是从效率而言,还是从有效性而言,建立在事务处理型应用环境中的分析决策应用都无法满足现代的需求。 2、平台架构要求 以血液大数据平台的各种资源库的数据为依托,通过多维度、应用价值高的数据挖掘,提供决策依据。 主题数据库分析挖掘系统参数全文共4页,当前为第3页。主题数据库分析挖掘系统参数全文共4页,当前为第3页。血液大数据平台的数据根据业务要求实时或者离线的采集到文件存储集群,计算引擎根据业务规则计算结果到搜索引擎集群,通过数据服务进行数据展现和展示。 主题数据库分析挖掘系统参数全文共4页,当前为第3页。 主题数据库分析挖掘系统参数全文共4页,当前为第3页。 3、技术选型要求 要求使用开源大数据生态系统,提供集群、作业、数据管理的一站式大数据处理分析服务,以此来构建大数据挖掘系统。 数据安全要求 (1)项目规划部署阶段就确定数据的隐私保护策略。 (2)根据隐私保护政策,及时发现敏感数据是否暴露在外。 (3)搜集信息并决定是否暴露出安全风险。 (4)确定挖掘分析是否需要访问真实数据,或者确定是否可以使用这些敏感数据。 (5)选择合适的加密技术,对其进行加密隐藏处理,同时提供最安全的加密技术和

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值