seqtk安装与使用-seqtk-1.4(bioinfomatics tools-012)

01 背景

Seqtk是一款快速轻量级的工具,用于处理FASTA或FASTQ格式的序列。它可以无缝解析FASTA和FASTQ文件,还可以选择性地使用gzip进行压缩。

比较类似SeqKit v2.5.1 (bioinfomatics tools-003)

 1.1 fastq格式(常简写为.fq)

Fastq格式是NGS测序出来的原始数据格式。Fastq格式的序列一般有4行。第一行是元数据, 由‘@’开始,后面跟着序列的描述信息, 通常被认为是标志行。第二行是序列,由{ACGTN}组成, 其中N代表不确定,表示该位置可能是ACG或T。第三行由‘+’开始, 后面也可以跟着序列的描述信息, 通常和@后面的内容一样。第四行是第二行序列的质量评价,因此字符数和第二行一样,表示对应碱基的错误概率的相关信息,越大代表错误概率越低,通常用ASCII表示。该格式已成为生物信息学领域的一项标准。尤其在NGS和三代测序领域使用最频繁。

核酸数据

@A00402:166:HFTWGDSXY:4:1101:4526:1000 1:N:0:CCGAAG
GGCAGAAGCAATCTTAAGATCATCGGATTCGGGGGCGGCGGCGCACGGGATTTTTCGCGAATCCTCCTTCACCATCAAGCGATCAAAATCGCTGATCTCGTCTTCGTCATCCGTGATATCTTCGTGCGCAGCGCGGGGTATGATGAGCGAC
+
FFFFFFFFFF:FFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFF
1.2 fasta格式(常简写为.fa)

fasta格式,又称Pearson格式,主要发明人是威廉·皮尔森(William Raymond Pearson)和戴维德.李普曼(David J. Lipman),威廉·雷蒙德·皮尔森是美国弗吉尼亚大学的生物化学与分子遗传学教授,戴维德.李普曼在1989年至2017年期间担任NCBI主任,他也是BLAST算法的发明人之一。fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。该格式和fastq格式已成为生物信息学领域的一项标准。

Fasta格式通常有两行。第一行由大于号“>”(较常用)开始, 后面跟着序列的描述信息, 通常被认为是标志行,可能包括仪器名, 测序平台, 短读的标识等信息。第二行是序列,序列信息通常由ACGT四个碱基组成,有时会有N代表不确定该位置是ACG还是T。仅从数据内容的格式上而言,相比于Fastq格式数据, 它缺少了Fastq格式中的第三行和第四行内容。

核酸序列

>TRINITY_DN0_c0_g1_i1.p1 TRINITY_DN0_c0_g1~~TRINITY_DN0_c0_g1_i1.p1  ORF type:3prime_partial (-),score=52.42 len:1017 TRINITY_DN0_c0_g1_i1:3-1019(-)
ATGCGTGTGTTTTGTGTTTGTTACATTTTCAGGTGTTTCGAATCATTAATTGCGGATCTG
TTGCTCTTGTTTTCACCAACAAAAACCCTAGCTATCGGTCGTTGTTCGTCGCAGTTTTTG
TTTCACATATTGCATGTGCTTAGCTTAGCTATGGATCGGTACCAGAAGGTGGAGAAGCCG
AAGGTTGAGACGCCAATCGCTGAGAATGAAATTCGGATTACAAGCCAGGGCAGGATGCGA
AGCTACATCACTTACGCCATGACTCTGCTTCAGGAAAAGGGCTCAGATGAAGTAGTATTC
AAGGCAATGGGCAGAGCCATCAATAAAACTGTTACAATTGTGGAGTTAATCAAGAGAAGA
ATTGTTGGTCTTCACCAAATTACAGCAATTCAATCCACTGATATAACTGACACATGGGAA

蛋白序列

>TRINITY_DN0_c0_g1_i1.p1 TRINITY_DN0_c0_g1~~TRINITY_DN0_c0_g1_i1.p1  ORF type:3prime_partial (-),score=52.42 len:339 TRINITY_DN0_c0_g1_i1:3-1019(-)
MRVFCVCYIFRCFESLIADLLLLFSPTKTLAIGRCSSQFLFHILHVLSLAMDRYQKVEKP
KVETPIAENEIRITSQGRMRSYITYAMTLLQEKGSDEVVFKAMGRAINKTVTIVELIKRR
IVGLHQITAIQSTDITDTWEPLEEGLQILETTRKVSMVTITLSKKDLDMNNVGYQPPIPA
DQVKVSTELEYDGEGSPIGRGRGRGGRGRGRPRGGPAGNGYAPAEFDDGGYDRSRGYPRG
RGRGRGRNFRGRGRGGYYQSDAQNDAGGRGRGGYYQSDAQNDAGGRGRGGYYQSDAQNDA
GGRGRGGYYQSDAQNDAGGRGRGGYYQSDAQNDAPRYNQ
1.3 序列编辑工具

如何对.fa文件进行编辑,大家有用记事本(win),或者其他win版本txt编辑工具诸如typora等等,同时伴随着markdown语法的兴起,笔者观察到越来越多的研究生在使用win电脑或者mac电脑时候开始用txt做记录,用word等的频率开始下降。 两款序列神器-SeqtkSeqKitSeqKit v2.5.1 (bioinfomatics tools-003)

02 参考
https://github.com/lh3/seqtk   #官网
03 安装
#下载
wget -c https://github.com/lh3/seqtk/archive/refs/tags/v1.4.tar.gz
#解压
tar -zxvf seqtk-1.4.tar.gz
cd seqtk-1.4/
#make,The only library dependency is zlib.
make
04 使用

使用,具体可参考SeqKit v2.5.1 (bioinfomatics tools-003),这里其实是精简版本seqkit,但是有些功能比较常用,比SeqKit容易记一些,

05 常用命令行

常进行fq与fa文件的转换

- 将FASTQ转换为FASTA:

  seqtk seq -a in.fq.gz > out.fa

  
- 将ILLUMINA 1.3+版本的FASTQ转换为FASTA,并将质量低于20的碱基掩蔽为小写(第一条命令行)或N(第二条):

  seqtk seq -aQ64 -q20 in.fq > out.fa
  seqtk seq -aQ64 -q20 -n N in.fq > out.fa

  
- 折叠长的FASTA/Q行并移除FASTA/Q注释:

  seqtk seq -Cl60 in.fa > out.fa

  
- 将多行的FASTQ转换为4行的FASTQ:

  seqtk seq -l0 in.fq > out.fq

  
- 反向互补FASTA/Q:

  seqtk seq -r in.fq > out.fq

  
- 提取文件name.lst中命名的序列,每行一个序列名:

  seqtk subseq in.fq name.lst > out.fq

  
- 提取文件reg.bed中包含的区域的序列:

  seqtk subseq in.fa reg.bed > out.fa

  
- 将reg.bed中的区域掩蔽为小写:

  seqtk seq -M reg.bed in.fa > out.fa

  
- 从两个大型配对的FASTQ文件中随机抽样10000对读段(记得使用相同的随机种子以保持配对):

  seqtk sample -s100 read1.fq 10000 > sub1.fq
  seqtk sample -s100 read2.fq 10000 > sub2.fq

  
- 使用Phred算法从两端修剪低质量的碱基:

  seqtk trimfq in.fq > out.fq

  
- 从每个读段的左端修剪5bp,右端修剪10bp:

  seqtk trimfq -b 5 -e 10 in.fa > out.fa

  
- 查找端粒重复序列(TTAGGG)n:

  seqtk telo seq.fa > telo.bed 2> telo.count
06 参考文献

Shen, W., Le, S., Li, Y., & Hu, F. (2016). SeqKit: A Cross-Platform and Ultrafast Toolkit for FASTA/Q File Manipulation. PloS one11(10), e0163962. https://doi.org/10.1371/journal.pone.0163962

桂元苗.    面向蛋白互作预测的序列数据特征识别研究[D].    中国科学技术大学,    2019.     DOI:10.27517/d.cnki.gzkju.2019.000074.   
孙佳伟.    基于核酸序列功能修饰位点的识别研究[D].    江苏科技大学,    2018.  
汪俊.    我国养殖太平洋牡蛎中诺瓦克样病毒的检测及部分核酸序列的分析[D].    中国海洋大学,    2005.  
 

  • 32
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值