seqkit 那些事

1.改为碱基全部大写的形式

seqkit seq -u lower.geno >upper.geno改为碱基全部大写的形式,

{来自基因组注释(一):重复序列注释 | 生信技工 (yanzhongsino.github.io)}

2.截取指定范围的子序列:

seqkit subseq -r 141:15380 input.fasta > output.fasta

其中,input.fasta是你的输入文件,output.fasta是生成的输出文件。使用-r参数指定要截取的范围,这里是从141到15380。执行该命令后,将会生成一个包含指定范围的子序列的输出文件。

请注意,使用之前要对input.fasta建索引,建索引命令samtools faidx input.fasta

上述命令中的范围索引是以1为基准的。因此,范围141:15380表示截取从第141个碱基到第15380个碱基的子序列。

3.抽提数据

seqkit sample --proportion 0.25 /analysis2/01.Project/OMTSEQ202310016_OMTBI-202312140071_Setaria_italica_survey/00.data/00.data/GB-1/E200010991_L01_GB-1_R1.fq.gz \ seqkit sample --proportion 0.001  duplicated-reads.fq.gz \   | seqkit seq --name --only-id > id.txt  ##管道符前面的命令是随机取总文件25%的序列,管道符后面的是提取前面的符合要求的序列的ID

4.用seqkit软件就可轻松解决

  • 去掉单个序列

seqkit grep -v -p "gene2" gene.fa>nogene2.fa
  • 去掉一批序列
seqkit grep -v -f geneid.txt gene.fa >nogeneid.fa

 

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值