格式说明
FASTA格式是一种基于文本用于表示核苷酸序列(或氨基酸序列)的格式。碱基对(或氨基酸)用单个字母来编码,且允许在序列前添加序列名及注释。
>gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA
GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG
FASTA格式以“>”开头,紧接着序列的标识符
换行后是序列信息,代表某一条链从5’到3’的序列,一般不超过80个字符
FASTQ转FASTA shell脚本:
awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' fastq > fasta
FASTA文件处理
文件读取
无需对序列进行处理时
## param file: FASTA格式的文件
## return: None
def fa_cat(file):
for line in open(file):
print(line.strip())
fa_cat("test1.fa")
需处理序列并输出成FASTA时
## Read the file
fa_in = open(