2020.12.30丨随机读取reads使用ncbi在线工具比对nt数据库

本文介绍了如何通过seqtk工具随机抽取测序数据,将其转换为fasta格式,并在NCBI的Blast平台上进行比对以检查数据污染情况。比对流程包括随机提取序列、格式转换、在线提交序列和统计结果。通过分析比对结果,发现大部分序列比对到载体上,揭示了比对率低的原因。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 背景:最近有个项目,客户让比对到人的参考基因组,比对率却只有70%左右.为了搞清楚测序数据有没有被污染,我们需要随机读取一些reads,放到nt数据库去比对。之前都是一条一条提交,这种批量提取和提交都会遇到一些问题,因此,写这篇文章进行一个统计。
  • 比对流程:随机提取序列→fastq转换fasta→提交序列→统计结果
  • step.1 随机提取序列
    • 使用工具:seqtk
    • 安装方式:conda install seqtk
    • 使用代码:
      • seqtk sample -s 100 Carisma_control_ATCACGAT.fastq.gz 1000 > 1000reads_control.fastq #这里提取1000条
      • # -s 随机种子,默认值11,不清楚可以百度了解一下
    • 注意:一般进行随机比对会选择5000/10000条,不过ncbi在线平台对进程有控制,我试过,一次性跑不了5000条(PE100)。所以可以尝试跑1000或者2000条。
  • step.2 格式转换
    • 这个就比较简单,稍微百度一下,出来的前几个链接都是同样的一行代码可
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值