NIH如果禁止访问,我们还有哪些平替?

一、写在前面

最近有个事炸锅了,NIH将限制国人访问NIH相关的数据库和站点。大家最关心的肯定是以后能不能访问NCBI了,还能不能快乐的在PubMed检索文献了?以后还能不能快乐的在GEOSRA里挖啊挖啊挖了。截至发稿日,Biomamba还是可以正常的访问以上站点的。即使真封了,NIH的这些数据库与站点也有很多平替,21世纪也没什么秘密,NIH的各大数据库其实每日都与国际核酸序列数据库协作组织(INSDC)互相交换数据。理论上来说,NIH有的内容,都可以从平替站点以曲线救国的形式下载到。

二、PubMed→WOS

有备无患,除了隶属NIH的PubMed外,还可以用Web of SCIENCE来检索文献[2]。搜索界面如下,整洁好用,可以在Topic、Title、Author、Publication、Year Publish、Publication Date、Abstract、Address、Author Identifiers、DOI、Editor、Group Author多个尺度下对科研文章进行检索。且《Web of SCIENCE》隶属《Clarivate Analytics》,也就是评影响因子的机构,总部在伦敦。我想NIH的手应该没那么长?

检索和筛选系统还挺好

摘要页面也不比PubMed差

要说缺点就是无法直接获取全文,并且收录的图片居然还是黑白

不过问题不大,SCI-HUB走起或者试试bget

三、SRA→EBI

SRA(Sequence Read Archive) 是由NCBI管理的一个公共数据库,主要用于存储和共享高通量测序数据(Next-Generation Sequencing, NGS)的原始数据。如果NIH的限制让我们无法访问SRA,那我们不妨试试EBI[3],EBI是欧洲生物信息学研究所(European Bioinformatics Institute)的缩写,是一个致力于提供生物信息学研究、数据存储与分析服务的国际领先机构。EBI是欧洲分子生物学实验室(EMBL)的一个分支,位于英国剑桥,同理NIH应该手没那么长?事实上,SRA、EBI、日本DDBJ之间每天会同步数据,理论上我们甚至可以曲线救国,直接从EBI中下载到SRA的数据。

事实上,EBI数据的下载体验比SRA更好,毕竟SRA数据库里的SRA、SRP、SRX号总是让人傻傻分不清楚。例如,我们在Bulk RNASeq| 转录组实战中演示的案例;数据可见:https://www.ebi.ac.uk/biostudies/arrayexpress/studies/E-MTAB-13019。

在如上页面中,下载meta data之后,E-MTAB-13019.sdrf.txt中可以赫然发现数据来源其实还是SRA

需要借助ascp下载,教程可参考摆脱SRA、GEO、TCGA的破烂网速

# 创建文件夹收纳下载文件:

mkdir raw_reads

# 切换工作路径

cd raw_reads

# 下载数据:

cut -f 31  /mnt/g/analysis/转录组定量分析/E-MTAB-13019实战/13019/E-MTAB-13019.sdrf.txt | sed s/'ftp:\/\/ftp.sra.ebi.ac.uk\/'//g  | grep -v Comment | uniq | while read temp_sample ; do  ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:${temp_sample} ./ ; done

下载速度也非常给力:

    下载日志:
    ERR11498137_1.fastq.gz                                              100% 3412MB  192Mb/s    03:10
    Completed: 3494423K bytes transferred in 191 seconds 
    (149377K bits/sec), in 1 file.
    ERR11498137_2.fastq.gz                                              100% 3683MB  126Mb/s    03:33
    Completed: 3771548K bytes transferred in 213 seconds
     (144503K bits/sec), in 1 file.
    ERR11498138_1.fastq.gz                                              100% 3727MB  172Mb/s    03:28
    Completed: 3817313K bytes transferred in 209 seconds 
    (149180K bits/sec), in 1 file.
    ERR11498138_2.fastq.gz                                              100% 4075MB  119Mb/s    04:07
    Completed: 4173298K bytes transferred in 248 seconds 
    (137821K bits/sec), in 1 file.
    ERR11498139_1.fastq.gz                                              100% 4078MB  163Mb/s    03:49
    Completed: 4175881K bytes transferred in 229 seconds
     (148768K bits/sec), in 1 file.
    ERR11498139_2.fastq.gz                                              100% 3719MB 74.3Mb/s    03:15
    Completed: 3809249K bytes transferred in 197 seconds 
    (158397K bits/sec), in 1 file.
    ERR11498140_1.fastq.gz                                              100% 3669MB  196Mb/s    03:28
    Completed: 3757292K bytes transferred in 209 seconds 
    (146748K bits/sec), in 1 file.
    ERR11498140_2.fastq.gz                                              100% 3424MB  145Mb/s    03:20
    Completed: 3506862K bytes transferred in 201 seconds
    (142861K bits/sec), in 1 file.
    ERR11498141_1.fastq.gz                                              100% 4442MB  142Mb/s    04:36
    Completed: 4549074K bytes transferred in 277 seconds 
    (134237K bits/sec), in 1 file.
    ERR11498141_2.fastq.gz                                              100% 4831MB  188Mb/s    04:35
    Completed: 4947910K bytes transferred in 276 seconds 
    (146469K bits/sec), in 1 file.
    ERR11498142_1.fastq.gz                                              100% 3377MB  149Mb/s    02:56
    Completed: 3459053K bytes transferred in 178 seconds 
    (159070K bits/sec), in 1 file.
    ERR11498142_2.fastq.gz                                              100% 3119MB  171Mb/s    02:58
    Completed: 3193981K bytes transferred in 179 seconds 
    (146012K bits/sec), in 1 file.
    ERR11498143_1.fastq.gz                                              100% 3850MB  123Mb/s    04:19
    Completed: 3942604K bytes transferred in 260 seconds 
    (123908K bits/sec), in 1 file.
    ERR11498143_2.fastq.gz                                              100% 3563MB  168Mb/s    03:13
    Completed: 3648887K bytes transferred in 194 seconds 
    (153500K bits/sec), in 1 file.
    ERR11498144_1.fastq.gz                                              100% 4026MB  206Mb/s    03:59
    Completed: 4123110K bytes transferred in 241 seconds 
    (140027K bits/sec), in 1 file.
    ERR11498144_2.fastq.gz                                              100% 3701MB  184Mb/s    03:20
    Completed: 3789882K bytes transferred in 201 seconds 
    (153897K bits/sec), in 1 file.

    四、GenBank→ENA

    如果GenBank(NCBI 提供的核酸序列数据库)被禁止访问,你可以使用ENA[4]、DDBJ[5]、UCSC Genome Browser[6]、Ensembl Genome Browser[7]这些等效平台作为替代(平替),它们同样是 INSDC(国际核酸序列数据库协作组织)成员,并与 GenBank 数据同步。例如我们想在ENA中检索CD8A的数据:

    参考:

    [1]https://grants.nih.gov/grants/guide/notice-files/NOT-OD-25-083.html

    [2]https://www.webofscience.com/wos/

    [3]https://www.ebi.ac.uk/

    [4]https://www.ebi.ac.uk/ena

    [5]https://www.ddbj.nig.ac.jp

    [6]https://genome.ucsc.edu

    [7]https://www.ensembl.org

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值