CNCB(国家生物信息中心)数据下载流程学习(Anaconda/Aspera/Edge turbo)

China National Center for Bioinformation (CNCB)(中国国家生物信息中心)是我们国家层面设立的生物信息学研究与数据资源中心。它是生命科学和生物医学领域的重要基础设施,专注于生物信息数据的存储、分析和共享,为生物医学研究提供强大的数据支持和计算资源。

目前越来越多的数据存储在该平台上面了,因此也有必要学习一下如何下载该平台中的数据~

分析流程

HRA003340鼻咽癌数据

如果还没有安装Anaconda需要先安装一下

# 自行去官网查看一下最新版本
wget https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh
# 设置执行权限
chmod +x Anaconda3-2024.10-1-Linux-x86_64.sh
# 安装脚本
./Anaconda3-2024.10-1-Linux-x86_64.sh
# 添加环境变量
source ~/.bashrc

# 设置国内的镜像源(北师大/清华/西湖 自选)
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes
1.使用Aspera下载

需要在下载页面中把秘钥文件下载下来,之后需要把秘钥文件的路径输入进命令中

值得一提的是,不同数据库中使用的秘钥是不一样的,有可能会需要本地的秘钥路径。

同时我们也需要下载安装一下aspera,如果命令行下载失败的话就需要去官网下载

# 可以尝试直接安装
conda install -y -c hcc aspera-cli

# 如果不行那就直接去官网下载,之后本地安装(版本替换成下载的)
tar xvf ibm-aspera-connect_4.2.12.780_linux_x86_64.tar.gz

# 安装aspera
sh ibm-aspera-connect_4.2.12.780_linux_x86_64.sh

# 找到秘钥
/home/data/t200558/NPCdata/HRA003340/aspera01.openssh

# 手动设置PATH
export PATH=$PATH:/home/data/t200558/.aspera/connect/bin

# 找到ascp的保存路径
which ascp
/home/data/t200558/.aspera/connect/bin/ascp

[path/to/ascp]:替换为ascp可执行文件的完整路径;

[path/to/key/file]:替换为用于身份验证的私钥文件的路径;

[/your/local/path]:文件保存路径

# 官网示例代码
[path/to/ascp] -P33001 -i [path/to/key/file] -QT -l100m -k1 -d aspera01@download.cncb.ac.cn:gsa-human/HRA003340 /your/local/path
正式开始下载
 nohup /home/data/t200558/.aspera/connect/bin/ascp -P33001 -i /home/data/t200558/NPCdata/HRA003340/aspera01.openssh -QT -l100m -k1 -d aspera01@download.cncb.ac.cn:gsa-human/HRA003340 /home/data/t200558/NPCdata/HRA003340/ > download.log 2>&1 &
 
 # check一下
 tail -f download.log

2.使用Edge turbo下载数据

目前对于该平台中的数据,专门有一个软件进行下载,这个软件是Edge turbo。

软件准备:开发者建议用户在home目录中进行解压。解压后会在当前目录下增加 edgeturbo client

# 下载
wget https://ngdc.cncb.ac.cn/ettrans/download/edgeturbo-client.linux.latest.cncb.tar.gz

# 解压缩
tar -zxvf edgeturbo-client.linux.latest.cncb.tar.gz

# 添加环境
source ~/.bashrc

笔者最终还是把文件复制到了home目录下

关键参数
# 启动客户端
edgeturbo start
# 重新启动客户端
edgeturbo restart
# 停止客户端
edgeturbo stop
# 下载
edgeturbo download/dl <remote_path> [Llocal_path]

# 删除任务——按d或者D键
# 暂停任务——按p或者P键
# 任务续传——按r或者R键

# 删除传输任务
edgeturbo rm 74d64a0244d9
# 删除所有任务
edgeturbo rm
# 查看任务状态
edgeturbo ps
edgeturbo
# 设置本地下载目录
edgeturbo set /home/lnjoying/mydownload
# 查看帮助
edgeturbo help
开始下载

突然发现这个鼻咽癌的数据集没有EdgeTurbo下载入口,只能更换一个数据尝试一下了hhh(这就尴尬了,看来还是aspera更便利)。

# 启动
edgeturbo start
# 下载
edgeturbo download/gsa/CRA007099/CRR511439

参考资料:
  1. Edge turbo客户端(网上直接搜索即可)。

  2. 生信技能树:https://mp.weixin.qq.com/s/dbP5t_vXK4q917UEKrSwIw

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -

很不错的一套站群系统源码,后台配置采集节点,输入目标站地址即可全自动智能转换自动全站采集!支持 https、支持 POST 获取、支持搜索、支持 cookie、支持代理、支持破解防盗链、支持破解防采集 全自动分析,内外链接自动转换、图片地址、css、js,自动分析 CSS 内的图片使得页面风格不丢失: 广告标签,方便在规则里直接替换广告代码 支持自定义标签,标签可自定义内容、自由截取、内容正则截取。可以放在模板里,也可以在规则里替换 支持自定义模板,可使用标签 diy 个性模板,真正做到内容上移花接木 调试模式,可观察采集性能,便于发现和解决各种错误 多条采集规则一键切换,支持导入导出 内置强大替换和过滤功能,标签过滤、站内外过滤、字符串替换、等等 IP 屏蔽功能,屏蔽想要屏蔽 IP 地址让它无法访问 ****高级功能*****· url 过滤功能,可过滤屏蔽不采集指定链接· 伪原创,近义词替换有利于 seo· 伪静态,url 伪静态化,有利于 seo· 自动缓存自动更新,可设置缓存时间达到自动更新,css 缓存· 支持演示有阿三源码简繁体互转· 代理 IP、伪造 IP、随机 IP、伪造 user-agent、伪造 referer 来路、自定义 cookie,以便应对防采集措施· url 地址加密转换,个性化 url,让你的 url 地址与众不同· 关键词内链功能· 还有更多功能等你发现…… 程序使用非常简单,仅需在后台输入一个域名即可建站,不限子域名,站群利器,无授权,无绑定限制,使用后台功能可对页面进行自定义修改,在程序后台开启生 成功能,只要访问页面就会生成一个本地文件。当用户再次访问的时候就直接访问网站本地的页面,所以目标站点无法访问了也没关系,我们的站点依然可以访问, 支持伪静态、伪原创、生成静态文件、自定义替换、广告管理、友情链接管理、自动下载 CSS 内的图。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值