GTF文件格式简介

欢迎关注”生信修炼手册”!

GTF是在GFF的基础上发展而来,二者有很多类似的地方,都是\t分隔的9列文件,内容也比较接近。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息,而GTF主要用来描述基因和转录本的信息。

GTF全称Gene transfer format, 每列的含义如下

1. column1

第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

2. column2

第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自RefSeq数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。

3. column3

第三列是feature, 代表区间对应的特征类型, 在GTF中,常见的类型如下

  • 5UTR

  • 3UTR

  • exon

  • CDS

  • start_codon

  • stop_codon

4. column4

第四列是start, 代表区间的起始位置

5. column5

第四列是end, 代表区间的终止位置

6. column6

第六列是score, 软件提供了统计值,如果没有,就用.填充

7. column7

第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充

8. column8

第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种

9. column9

第九列是attributes, 表示属性,每种属性写法为key value, 注意和gff中key=value有所区别,而且必须有gene_idtranscript_id这两个属性, 多个属性用分号分隔

下面看下Ensembl 数据库中的human的GTF文件,链接如下

ftp://ftp.ensembl.org/pub/release-93/gtf/homo_sapiens/Homo_sapiens.GRCh38.93.gtf.gz

在头部有#开头的注释行

#!genome-build GRCh38.p12
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.27
#!genebuild-last-updated 2018-01

在正文中,基因示例如下

1       ensembl_havana  gene    65419   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding";

对于基因,提供了如下属性

  1. gene_id

  2. gene_version

  3. gene_name

  4. gene_source

  5. gene_biotype

Ensembl数据库中的基因ID以ENSG作为前缀,gene_version指的是基因ID的版本号,用于区分不同版本,一个完整的ID为ENSG编号加上版本号,之间用.点号分隔,比如ENSG00000186092.6。gene_name指的是基因的symbol, 和NCBI数据库中的gene_symbol一致;gene_source代表来源,来自ensembl_havana, gene_biotype代表基因类型,protein_coding表示蛋白编码基因。

转录本示例如下

1       havana  transcript      65419   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

对于转录本,在基因的基础上,增加了如下属性

  1. transcript_id

  2. transcript_version

  3. transcript_name

  4. transcript_source

  5. transcript_biotype

各个属性的含义也比较直观,和基因的类似。

exon示例如下

1       havana  exon    65419   65433   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "1"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; exon_id "ENSE00003812156"; exon_version "1"; tag "basic";

对于exon,新增了如下属性
  1. exon_number
  2. exon_id
  3. exon_version

对于non-coding的转录本而言,transcriptexon两种信息就可以准确描述该转录本的结构了;对于编码蛋白质的转录本,还需要以下几种信息

5UTR示例如下

1       havana  five_prime_utr  65520   65564   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";

CDS示例如下

1       havana  CDS     65565   65573   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; protein_id "ENSP00000493376"; protein_version "2"; tag "basic";

start_codon示例如下

1       havana  start_codon     65565   65567   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

stop_codon示例如下

1       havana  stop_codon      70006   70008   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "3"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

3UTR示例如下

1       havana  three_prime_utr 70009   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";

通过这几种信息,可以准确描述一个编码蛋白的转录本的结构。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值