Fasta序列格式

最新推荐文章于 2024-04-12 19:30:00 发布

xcaryyz

最新推荐文章于 2024-04-12 19:30:00 发布

阅读量1.2w

点赞数 2

分类专栏：生物信息文章标签：生物信息

生物信息专栏收录该内容

10 篇文章 3 订阅

订阅专栏

原文：http://blog.csdn.net/shmilyringpull/article/details/7102326

fasta序列格式是blast组织数据的基本格式，无论是数据库还是查询序列，大多数情况都使用fasta序列格式，所以首先对fasta格式在做详细说明。下面是一个来源于NCBI的fasta格式序列：

[html]view plain copy
 >gi|187608668|ref|NM_001043364.2| Bombyx mori moricin (Mor), mRNA  
   
 AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTCTTTGTTTTTA  
   
 TTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCCAGCAAAAATACCT  
   
 ATCAAGGCCATTAAGACTGTAGGAAAGGCAGTCGGTAAAGGTCTAAGAGCCAT  
   
 CAATATCGCCAGTACAGCCAACGATGTTTTCAATTTCTTGAAACCGAAGAAAA  
   
 GAAAGCATTAAGAAAAGAAATTGAGTGAATGGTATTAGATATATTACTAAAGG  
   
 ATCGATCACAATGATATATAGATAGGTCATAGATGTCAACGTGAATTTATGGA  
   
 TTTTTGTTTTCCCCTTTGTAGTACTTACTTATAGTCAGTTCTTAAATTGATTG  
   
 CAACGACAACTGTGTACTATTTTTTATATTTGGTTCGAAAAGTTGCATTATTA  
   
 ACGATTTTAGAAAATAAAACTACTTTACTTTTACACG

格式首先以大于号“>”开头，接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”，然后是序列的描述信息。换行后是序列信息，标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可，而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符（通常60个字符）。序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”，gi号类似与数据库中的流水号，由数字组成，具有绝对唯一性。一条核酸或者蛋白质改变了，将赋予一个新的gi号（这时序列的接收号可能不变）。gi号后面是序列的标识符，下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识（如接收号、名称等）等几部分组成，他们之间用“|”隔开，如果某项缺失，可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”，表示序列来源于NCBI的参考序列库，接收号为“NM_001043364.2”。

对于自己构建的序列数据库（序列不是来源与NCBI或其他数据），可以采用“gnl|database|identifier”或者“lcl|identifier”格式，以保证可以使用blast的所有功能。database或者identifier是需要指定的数据库的标识和序列标识，指定的名称可以用大小写字母、数字、下划线“_”、破折号“-”或者点号“.”。注意名称是区分大小写的，同时不能出现空格，空格表示序列标识符结束。
数据库中的序列标识符必须保证唯一，许多时候格式数据库是formatdb报告错误，就是因为标示符重复，还有一点需要强调的是序列不能为空，否则也会报错。
下面是一个例子，这四个序列的标识符都是唯一。

gnl|H.sapiens|seq1
gnl|H.sapiens|seq2
gnl|M.Mus|seq1
lcl|seq1

表：序列来源的数据库与对应的标识符

Database Name数据库名称	Identifier Syntax 标识符
GenBank	gb\|accession\|locus
EMBL Data Library	emb\|accession\|locus
DDBJ, DNA Database of Japan	dbj\|accession\|locus
NBRF PIR	pir\|\|entry
Protein Research Foundation	prf\|\|name
SWISS-PROT	sp\|accession\|entry name
Brookhaven Protein Data Bank	pdb\|entry\|chain
Patents	pat\|country\|number
GenInfo Backbone Id	bbs\|number
General database identifier	gnl\|database\|identifier
NCBI Reference Sequence	ref\|accession\|locus
Local Sequence identifier	lcl\|identifier

表：序列中的每个字母或字符所代表的含义。

核苷酸序列：
        A --> adenosine M --> A C (amino)
        C --> cytidine S --> G C (strong)
        G --> guanine W --> A T (weak)
        T --> thymidine B --> G T C
        U --> uridine D --> G A T
        R --> G A (purine) H --> A C T
        Y --> T C (pyrimidine) V --> G C A
        K --> G T (keto) N --> A G C T (any)
                                   - gap of indeterminate length

氨基酸序列：

A alanine                          P proline
    B aspartate or asparagine Q glutamine
    C cystine                          R arginine
    D aspartate                      S serine
    E glutamate                     T threonine
    F phenylalanine U selenocysteine
    G glycine                          V valine
    H histidine                        W tryptophan
    I isoleucine                       Y tyrosine
    K lysine                          Z glutamate or glutamine
    L leucine                          X any
    M methionine * translation stop
    N asparagine - gap of indeterminate length

xcaryyz

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Fasta序列格式

原文：http://blog.csdn.net/shmilyringpull/article/details/7102326fasta序列格式是blast组织数据的基本格式，无论是数据库还是查询序列，大多数情况都使用fasta序列格式，所以首先对fasta格式在做详细说明。下面是一个来源于NCBI的fasta格式序列：[html] view plain c
复制链接

扫一扫

专栏目录