2022.03.24【基因组组装】|获取比对到参考基因组的contig序列

13 篇文章 9 订阅
8 篇文章 2 订阅

摘要

很久没有整理工作笔记了,一方面个人有些倦怠,另一方面国内国际发生的事都牵动着许多人,我也不例外。趁着今天项目不多,记录一下最近的解决方案。
上周遇到一个想检测测序样品中是否包含预期的细菌物种。使用nr数据库比对以及metaphlan3进行物种注释都找到了客户的预期物种。然后客户希望通过测序数据组装出一套基因组。要求是组装出来的contig必须是都比对上参考基因组的。这个虽然不难,而且方法还不少,比如可以用之前去宿主的思路保留比对序列。但是这次我用了另外的工具,之前没具体做过,因此进行一个记录。

工具与方法

主要使用blastseqtk这两个工具,前者进行序列比对,后者进行序列提取。

操作方法

step.1 构建参考基因组数据库

makeblastdb是blast用来构建数据库的命令,-in为输入参考基因组序列,-dbtype为数据库类型,一般就核酸序列和蛋白序列两种。

makeblastdb -in ref_bilvae.fasta -dbtype nucl

step.2 比对序列

blastn是核酸序列比较核酸序列数据库,-query为比对序列,-perc_identity为相似度过滤,可设置0-100,这里设置的99,-outfmt选择输出格式。可输出格式很多,我试了几个,发现选择6号表头格式比较方便获取到query_id序列。

blastn -db ref_bilvae.fasta -query AOLQ_192_scaffolds.fasta -out result.txt -perc_identity 99 -outfmt 6

在这里插入图片描述

step.3 获取query_id

这一步比较简单,通过上一步得到的比对结果使用awk可以在第一列获取到query_id,uniq则可以对序列进行去重。

awk -F "\t" '{print $1}' result.txt |uniq > align_queryid.txt

step.4 获取比对序列

最后一步就要用的神奇的seqtk工具(国人李恒大神开发),使用subseq命令直接根据id号提取contig序列,非常方便快捷。

seqtk subseq AOLQ_192_scaffolds.fasta align_queryid.txt >align_contigs.txt

结果展示

最后看一下我们得到的序列
在这里插入图片描述
最长的contigs不方便展示,我把最后一些短片段贴了出来。

欢迎大家加vx:bbplayer2021进群交流生信分析。

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值