Fasta序列格式


原文:http://blog.csdn.net/shmilyringpull/article/details/7102326


fasta序列格式是blast组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用fasta序列格式,所以首先对fasta格式在做详细说明。 下面是一个来源于NCBI的fasta格式序列:

[html]  view plain  copy
  1. >gi|187608668|ref|NM_001043364.2| Bombyx mori moricin (Mor), mRNA  
  2.   
  3. AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTCTTTGTTTTTA  
  4.   
  5. TTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCCAGCAAAAATACCT  
  6.   
  7. ATCAAGGCCATTAAGACTGTAGGAAAGGCAGTCGGTAAAGGTCTAAGAGCCAT  
  8.   
  9. CAATATCGCCAGTACAGCCAACGATGTTTTCAATTTCTTGAAACCGAAGAAAA  
  10.   
  11. GAAAGCATTAAGAAAAGAAATTGAGTGAATGGTATTAGATATATTACTAAAGG  
  12.   
  13. ATCGATCACAATGATATATAGATAGGTCATAGATGTCAACGTGAATTTATGGA  
  14.   
  15. TTTTTGTTTTCCCCTTTGTAGTACTTACTTATAGTCAGTTCTTAAATTGATTG  
  16.   
  17. CAACGACAACTGTGTACTATTTTTTATATTTGGTTCGAAAAGTTGCATTATTA  
  18.   
  19. ACGATTTTAGAAAATAAAACTACTTTACTTTTACACG  


     格式首先
以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符(通常60个字符)。序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
     所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。gi号后面是序列的标识符,下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。

对于自己构建的序列数据库(序列不是来源与NCBI或其他数据),可以采用“gnl|database|identifier”或者“lcl|identifier”格式,以保证可以使用blast的所有功能database或者identifier是需要指定的数据库的标识和序列标识,指定的名称可以用大小写字母、数字、下划线“_”、破折号“-”或者点号“.”。注意名称是区分大小写的,同时不能出现空格,空格表示序列标识符结束。
数据库中的序列标识符必须保证唯一,许多时候格式数据库是formatdb报告错误,就是因为标示符重复,还有一点需要强调的是序列不能为空,否则也会报错。
下面是一个例子,这四个序列的标识符都是唯一。

  • gnl|H.sapiens|seq1
  • gnl|H.sapiens|seq2
  • gnl|M.Mus|seq1
  • lcl|seq1

 


表:序列来源的数据库与对应的标识符

Database Name数据库名称 Identifier Syntax 标识符
GenBank gb|accession|locus
EMBL Data Library emb|accession|locus
DDBJ, DNA Database of Japan dbj|accession|locus
NBRF PIR pir||entry
Protein Research Foundation prf||name
SWISS-PROT sp|accession|entry name
Brookhaven Protein Data Bank pdb|entry|chain
Patents pat|country|number
GenInfo Backbone Id bbs|number
General database identifier gnl|database|identifier
NCBI Reference Sequence ref|accession|locus
Local Sequence identifier lcl|identifier

表:序列中的每个字母或字符所代表的含义。


核苷酸序列:
        A --> adenosine            M --> A C (amino)
        C --> cytidine                S --> G C (strong)
        G --> guanine               W --> A T (weak)
        T --> thymidine             B --> G T C
        U --> uridine                 D --> G A T
        R --> G A (purine)         H --> A C T
        Y --> T C (pyrimidine)   V --> G C A
        K --> G T (keto)             N --> A G C T (any)
                                   -  gap of indeterminate length


氨基酸序列:
  

 A  alanine                          P  proline
    B  aspartate or asparagine      Q  glutamine
    C  cystine                          R  arginine
    D  aspartate                      S  serine
    E  glutamate                     T  threonine
    F  phenylalanine                      U  selenocysteine
    G  glycine                          V  valine
    H  histidine                        W  tryptophan
    I  isoleucine                       Y  tyrosine
    K  lysine                            Z  glutamate or glutamine
    L  leucine                          X  any
    M  methionine                       *  translation stop
    N  asparagine                        -  gap of indeterminate length


 
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值