欢迎关注”生信修炼手册”!
在NGS数据分析中,常常需要对fasta/fastq文件进行一些处理,fastx_toolkit是一款综合性的工具,提供了很多有用的功能,能够简单方便的处理序列文件。官网如下
http://hannonlab.cshl.edu/fastx_toolkit
官网提供了二进制可执行文件,直接下载即可
wget http://hannonlab.cshl.edu/fastx_toolkit/fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
tar xjvf fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
fastx_toolkit由一系列的命令组成,每个命令提供一个实用的小功能。在使用时需要注意以下几点
不支持压缩格式的输入文件
不允许序列中存在N碱基,这样的序列会自动去除
可视化命令依赖gunplot软件和perl的GD模块
默认情况下认为fastq文件的碱基编码格式为phred64
对于目前主流的phred33编码的fastq文件,需要添加参数-Q 33
。
1. 将fastq文件转换为fasta文件
fastq_to_fasta
命令可以将fastq文件转换为fasta文件,基本用法如下
fastq_to_fasta -i