1.
改为碱基全部大写的形式
seqkit seq -u lower.geno >upper.geno
改为碱基全部大写的形式,
{来自基因组注释(一):重复序列注释 | 生信技工 (yanzhongsino.github.io)}
2.截取指定范围的子序列:
seqkit subseq -r 141:15380 input.fasta > output.fasta
其中,input.fasta
是你的输入文件,output.fasta
是生成的输出文件。使用-r
参数指定要截取的范围,这里是从141到15380。执行该命令后,将会生成一个包含指定范围的子序列的输出文件。
请注意,使用之前要对input.fasta建索引,建索引命令samtools faidx input.fasta
上述命令中的范围索引是以1为基准的。因此,范围141:15380
表示截取从第141个碱基到第15380个碱基的子序列。
3.抽提数据
seqkit sample --proportion 0.25 /analysis2/01.Project/OMTSEQ202310016_OMTBI-202312140071_Setaria_italica_survey/00.data/00.data/GB-1/E200010991_L01_GB-1_R1.fq.gz \ seqkit sample --proportion 0.001 duplicated-reads.fq.gz \ | seqkit seq --name --only-id > id.txt ##管道符前面的命令是随机取总文件25%的序列,管道符后面的是提取前面的符合要求的序列的ID
4.用seqkit软件就可轻松解决
-
去掉单个序列
seqkit grep -v -p "gene2" gene.fa>nogene2.fa
- 去掉一批序列
seqkit grep -v -f geneid.txt gene.fa >nogeneid.fa