GFF/GTF简介及格式转换

最近做转录组的比对时,在建立索引过程中,遇见一个问题,就是我从ncbi下载的序列文件和gtf文件中,染色体命名规则竟然不一样,但序列文件和gff文件染色体命名规则是一样的,具体来说:序列文件和GFF文件中染色体位置以GWHAMMI开头,可是,gff文件又没办法直接和基因组fasta文件搭配使用,只好将 gff文件转gtf文件了。

gff和gtf格式都可以储存基因信息,有很多共同点,存储信息侧重点又不一样,最主要的是不同的软件对于文件格式的要求不同,有时候你找不到需要的格式文件时,就得用另一个格式文件进行转换,我这次就得把gff文件转为我需要的gtf文件。

一、GFF/GTF简介:

GFF全称为general feature format,这种格式主要是用来注释基因组;

GTF全称为gene transfer format,主要是用来对基因进行注释。

GTF文件以及GFF文件都由9列数据组成,这两种文件的前8列都是相同的,非常好理解,区别在于第九列;

图片

二、GFF/GTF****文件比较

GFF文件每一列所代表的含义前面表格中有,但请注意,它的第3列feature type是不受约束的,你可以使用任意的名称。

我们需要注意的是GFF文件的第9列,从第二版开始(GFF2),所有的属性都以标签``=``值的方式呈现,各个属性之间以;作为分隔符。

在最新版本的GFF文件中(GFF3),有一些是已经预先定义的属性特征,并且这些特征往往还有特殊的含义:ID这个标签在各行有;另外有一个Parent的属性,它表明了当前的特征是Parent特征的子集。

GFF文件内容:
图片

GTF当前所广泛使用的GTF格式为第二版(GTF2),它主要是用来描述基因的注释。GTF格式有两个硬性标准:

 根据所使用的软件的不同,featuretypes是必须注明的;

 第9列必须以gene_id以及transcript_id开头,GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征):

GTF文件内容:
图片
图片

三、GFF/GTF格式转换:

有不同的工具可以来完成这个工作,生成的结果还略有不同,这次重新学习,决定比较一下,选一个更适合自己课题的结果。

Cufflinks里面的工具gffread

下载地址:

https://github.com/cole-trapnell-lab/cufflinks和

https://github.com/gpertea/gffread

下载后tar -zxvf 解压后就能够使用,解压后程序列表:

图片

/cufflinks-2.2.1/gffread -T my.gff -o my_gffread.gtf,

生成的gtf文件有164210行信息,如下图,只保留了exon和CDS的信息,而它源自的gff文件有220938行信息,少了gene、mRNA行的信息;相比于ncbi上原下载的gtf文件,少了transcript、start_codon、stop_codon的信息,此外**,第九列的属性也只有transcript_id, gene_id, gene_name3种属性**,有人提到这些ID没有任何含义,Entrez ID和转录本的RefSeq 编号很重要,目前我也不是很确定这些信息对后面建立索引及比对会有啥影响,未来会让师妹去探索一下。

新生成的gtf文件:图片

对于GTF的实际使用而言,只需要exon区间信息就可以区分不同的转录本了,而且在定量的过程中,也是只需要参考exon的位置信息。在gffread官网上,看到这么一段话,留给大家自己品味吧。

图片

图片

关于我疑惑缺少的一些信息,显然软件开发者是有自己观点的(虽然我还不是很理解),让我接受这个结果并没有接着去探究其它方法最关键的原因是:gffread和Hisat2来自同一实验室开发。

参考:

http://ccb.jhu.edu/software/stringtie/gff.shtml#cite

https://cloud.tencent.com/developer/article/1036910

https://cloud.tencent.com/developer/article/1625209?from=article.detail.1709221

https://cloud.tencent.com/developer/article/1727772?from=article.detail.1625209

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值