GTF/GFF文件格式解读和转换

GFF文件

全程为gerneral feature format,这种格式主要用来注释基因组。
从Ensembel 导出的GFF文件实例,一共有9列,中间用tab键分开。
在这里插入图片描述
1.seq_id: 序列编号,一般为chr或者scanfold编号;
2.source: 注释的来源,一般为数据库或者注释机构,“.”表示未知;
3.type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等
4.start: 该基因或转录本在参考序列上的起始位置(从1开始,包含)
5.end: 该基因或转录本在参考序列上的终止位置(从1开始,包含;)
基因或转录本在参考序列上的范围:start~end(包头尾)
6.score: 得分,数字,是注释信息的能能性说明;可以是序列相似性比对时的E-value
或是基因预测时的P-value,“.”表示空。
7.strand: 该基因或转录组位于参考序列的正链(+)或负链(-)
8.phrase: 仅对type为“CDS”有效。表示起始编码的位置
9.attributes: 一个包含众多属性的列表,格式为tab=value。键值之间用=,不同键值分割用“;”。一个键可以有多个值,不同值用“,”隔开。
在这里插入图片描述

GFT文件

全称为gene transfer format,主要用来对基因进行注释。

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
GTF大部分与GFF相同,但有两个硬性标准。
1.feature types必须标明
2.attribute列必须以gene_id以及transcript_id开头。而且标签与值之间用空格分开,且每个
特征之间都要有分号“;”,包括最后一个特征。
在这里插入图片描述

GFF与GTF相互转换

使用cufflinks里的工具gffread

#gff to gtf
gffread my.gff3 -T -o my.gtf
#gtf to gff
gffread my.gtf -o- >my.gff3
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值