【Bioinfo Blog 005】【Python Code 001】——FASTA文件处理

本文介绍了FASTA格式,主要用于存储核苷酸和氨基酸序列。文章详细讲解了如何使用Python处理FASTA文件,包括无处理读取、处理后输出、按行读入列表和以字典形式保留信息的方法。此外,还提到了FASTQ转FASTA的shell脚本。
摘要由CSDN通过智能技术生成

格式说明

FASTA格式是一种基于文本用于表示核苷酸序列(或氨基酸序列)的格式。碱基对(或氨基酸)用单个字母来编码,且允许在序列前添加序列名及注释。

>gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA
GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG

FASTA格式以“>”开头,紧接着序列的标识符
换行后是序列信息,代表某一条链从5’到3’的序列,一般不超过80个字符

FASTQ转FASTA shell脚本:

awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' fastq > fasta

FASTA文件处理

文件读取

无需对序列进行处理时

## param file: FASTA格式的文件
## return: None

def fa_cat(file):
    for line in open(file):
        print(line.strip())

fa_cat("test1.fa")

需处理序列并输出成FASTA时

## Read the file
fa_in = open(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值