最近做转录组的比对时,在建立索引过程中,遇见一个问题,就是我从ncbi下载的序列文件和gtf文件中,染色体命名规则竟然不一样,但序列文件和gff文件染色体命名规则是一样的,具体来说:序列文件和GFF文件中染色体位置以GWHAMMI开头,可是,gff文件又没办法直接和基因组fasta文件搭配使用,只好将 gff文件转gtf文件了。
gff和gtf格式都可以储存基因信息,有很多共同点,存储信息侧重点又不一样,最主要的是不同的软件对于文件格式的要求不同,有时候你找不到需要的格式文件时,就得用另一个格式文件进行转换,我这次就得把gff文件转为我需要的gtf文件。
一、GFF/GTF简介:
GFF全称为general feature format,这种格式主要是用来注释基因组;
GTF全称为gene transfer format,主要是用来对基因进行注释。
GTF文件以及GFF文件都由9列数据组成,这两种文件的前8列都是相同的,非常好理解,区别在于第九列;

二、GFF/GTF****文件比较
GFF文件每一列所代表的含义前面表格中有,但请注意,它的第3列feature type是不受约束的,你可以使用任意的名称。
我们需要注意的是GFF文件的第9列,从第二版开始(GFF2),所有的属性都以标签``=``值的方式呈现,各个属性之间以;作为分隔符。
在最新版本的GFF文件中(GFF3),有一些是已经预先定义的属性特征,并且这些特征往往还有特殊的含义:ID这个标签在各行有;另外有一个Parent的属性,它表明了当前的特征是Parent特征的子集。
G

博客讨论了在转录组分析中遇到的GFF和GTF文件格式问题。作者指出,由于染色体命名规则不一致,需要将GFF文件转换为GTF文件以配合基因组序列。GFF和GTF虽有共同点,但在细节和用途上存在差异。GFF的第三列featuretype自由度高,而GTF的featuretypes和第九列属性有固定要求。通过cufflinks的gffread工具进行转换,新生成的GTF文件仅包含exon和CDS信息,丢失了部分原始GFF和NCBI GTF文件中的细节。作者对此表达了对缺失信息可能影响后续分析的疑虑,但鉴于gffread与Hisat2同源,选择接受结果。文章末尾提及,对于GTF实际应用,exon信息已足够,且开发者可能有特定考虑。
最低0.47元/天 解锁文章
6097

被折叠的 条评论
为什么被折叠?



