GFF/GTF简介及格式转换

博客讨论了在转录组分析中遇到的GFF和GTF文件格式问题。作者指出,由于染色体命名规则不一致,需要将GFF文件转换为GTF文件以配合基因组序列。GFF和GTF虽有共同点,但在细节和用途上存在差异。GFF的第三列featuretype自由度高,而GTF的featuretypes和第九列属性有固定要求。通过cufflinks的gffread工具进行转换,新生成的GTF文件仅包含exon和CDS信息,丢失了部分原始GFF和NCBI GTF文件中的细节。作者对此表达了对缺失信息可能影响后续分析的疑虑,但鉴于gffread与Hisat2同源,选择接受结果。文章末尾提及,对于GTF实际应用,exon信息已足够,且开发者可能有特定考虑。

最近做转录组的比对时,在建立索引过程中,遇见一个问题,就是我从ncbi下载的序列文件和gtf文件中,染色体命名规则竟然不一样,但序列文件和gff文件染色体命名规则是一样的,具体来说:序列文件和GFF文件中染色体位置以GWHAMMI开头,可是,gff文件又没办法直接和基因组fasta文件搭配使用,只好将 gff文件转gtf文件了。

gff和gtf格式都可以储存基因信息,有很多共同点,存储信息侧重点又不一样,最主要的是不同的软件对于文件格式的要求不同,有时候你找不到需要的格式文件时,就得用另一个格式文件进行转换,我这次就得把gff文件转为我需要的gtf文件。

一、GFF/GTF简介:

GFF全称为general feature format,这种格式主要是用来注释基因组;

GTF全称为gene transfer format,主要是用来对基因进行注释。

GTF文件以及GFF文件都由9列数据组成,这两种文件的前8列都是相同的,非常好理解,区别在于第九列;

图片

二、GFF/GTF****文件比较

GFF文件每一列所代表的含义前面表格中有,但请注意,它的第3列feature type是不受约束的,你可以使用任意的名称。

我们需要注意的是GFF文件的第9列,从第二版开始(GFF2),所有的属性都以标签``=``值的方式呈现,各个属性之间以;作为分隔符。

在最新版本的GFF文件中(GFF3),有一些是已经预先定义的属性特征,并且这些特征往往还有特殊的含义:ID这个标签在各行有;另外有一个Parent的属性,它表明了当前的特征是Parent特征的子集。

G

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值