关于人类参考基因组及注释文件,一篇就够了

最近随着课题进展拿到二代测序数据,想要在学校通过VPN连接之前工作单位时的服务器传输数据进行生信分析,传输成功的可能性几乎为零,借着这个原由,也下了决心开始启用现在实验室给我分配的的服务器账号,意味着我在之前单位安装的软件、下载的数据库都需要重新安装、下载(为了更新一下),当然,课题接下来需要用的软件数目和数据库的种类及大小将会成为一个大工程。本想全交给课题组的计算机老师,但两人在沟通两次后,工程量太大,决定两个人一块来整,祈祷宿舍早点能够执行晚11点关门的政策……

最先下载的当属人类参考基因组了, 21年前,人类参考基因组首次公布,从此开启了基因组学研究的飞速发展时期,也迎来了生物信息学的快速发展。今年4月初,science连发6篇封面文章,宣布人类完整基因组测序计划正式完成。可见,这些年人类参考基因组总是在不断完善过程中,因此也有了不同的版本。不同的数据库均提供了下载链接,比如NCBI、UCSC、ENSEMBLE,网上有太多介绍了,希望刚开始学习的同学分别进入这些网站看一下,注意一下它们之间的区别,只要你是在同一网站下载的对应序列文件和注释文件,用来做参考基因组及注释文件都没有问题。

一、GENCODE中下载:

[外链图片转存中…(img-6hCJROAy-1651044501693)]

点击下载基因组注释文件**😗*

[外链图片转存中…(img-MmOCNLnl-1651044501694)]

我选的第一行中的GTF/GFF3

点击下载参考基因组:

[外链图片转存中…(img-OANg4h5n-1651044501694)]

下载完后通过gunzip命令进行解压,解压后的三个文件:

[外链图片转存中…(img-oqz7sTex-1651044501694)]

下面分别是GTF和GFF3解压后的内容:

[外链图片转存中…(img-s3BjNi8l-1651044501695)]

[外链图片转存中…(img-6hD30lCj-1651044501695)]

GTF和GFF文件都是由9列构成,分别是reference sequence name; annotation source; feature type; startcoordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的,第9列不同。

GTF第9列:以键值对的形式存在,键值之间是以空格区分,值用双引号括起来;不同属性之间用“;”分隔;开头必须是geneid, transciptid两个属性。

GFF第9列:以键值对的形式存在,键值之间用“=”连接,不同属性之间用“;”分隔,都是以ID这个属性开始。

(GTF其实就是GFF以Tab键分割,更便于传输)

二:NCBI下载链接

https://ftp.ncbi.nlm.nih.gov/genomes/genbank/vertebrate_mammalian/Homo_sapiens/reference/GCA_000001405.29_GRCh38.p14/

[外链图片转存中…(img-9xbxOqVa-1651044501695)]

下载完后通过gunzip命令进行解压,解压后的三个文件:

[外链图片转存中…(img-qJRfsSTG-1651044501696)]

下面分别是GTF和GFF解压后的内容:

[外链图片转存中…(img-Y3R7MIMg-1651044501696)]

[外链图片转存中…(img-PLo7kSIF-1651044501696)]

我简单统计了一下两个来源的注释文件和序列文件行数差别:

[外链图片转存中…(img-r8rKpDHQ-1651044501696)]

[外链图片转存中…(img-0UM6z8jW-1651044501697)]

我们可以看到,序列文件两个版本序列数目是一样的,但注释文件,来自ncbi的要比gencode多了几十万行的注释内容,需要注意gencode在下载注释文件时提供了包含不同注释信息的文件,这个也属于正常了,然后我又回到gencode中下载了all的注释文件:

[外链图片转存中…(img-c0ZrcvVB-1651044501697)]

[外链图片转存中…(img-dZXo14bv-1651044501697)]

要比之前的多了20多万行的注释信息,但还是比ncbi的少了几十万行,当然,少的这几十万行注释信息对你结果影响有多大我不好说,但都是可以拿来用的,如果我们只关注编码基因,我觉得不会有影响的,至少是不至于对你的结果起到质的影响。出于对NCBI的偏好,以后转录组和WES的分析,我都基于NCBI的版本来进行。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值