用于操作fq/fa文件
官方文档:http://bioinf.shenwei.me/seqkit
安装:conda install -c bioconda seqkit
参数详解:
amplicon:通过引物提取扩增子(或其周围的特定区域)
bam:对bam文件进行处理
common:发现多个文件之间的共同序列
concat:从多个文件中连接具有相同ID的序列
convert:在Sanger, Solexa和Illumina之间转换FASTQ质量编码
duplicate:复制n次序列
fa2fq:从fa文件中检索fq文本
fx2tab:将fq/fa文件转换为表格模式,包含GC含量,质量等
genautocomplete:生成shell自动完成脚本(bash|zsh|fish|powershell)
grep:通过ID/name/sequence/sequence/motif搜索序列,允许不匹配
head:提取前n条序列
head-genome:打印第一个基因组的序列,名称中有共同的前缀
locate:定位到subsequences/motifs,允许不匹配
mutate:编辑序列(点突变、插入、删除)
pair:从两个fastq文件匹配成对的reads
range:打印范围内的fq/fa文本
rename:重复id重命名
replace:用正则表达式替代name/sequence
restart:重置环形基因组位置
rmdup:删除重复序列的ID/name/sequence
sample:按数量或比例取样
sana:清理不完整的单行fq文件
scat:对fastx进行连接
seq:可用于选择、滤除或随机提取从FASTA或FASTQ文件中的序列
shuffle:随机序列
sliding:在滑动窗口中提取子序列
sort:按id/name/sequence/length排序
split:按id/seq region/size/parts将序列拆分为文件(主要用于FASTA)
split2:按size/parts序列拆分为文件
stats:fq/fa简单统计
subseq:按照region/gtf/bed获取子序列
sum:计算fq/fa文件中所有序列的消息摘要
tab2fx:将表格格式转换为fq/fa
translate:将DNA/RNA翻译成蛋白质序列
version:版本
watch:实时监控序列文件的数据