- 背景:最近有个项目,客户让比对到人的参考基因组,比对率却只有70%左右.为了搞清楚测序数据有没有被污染,我们需要随机读取一些reads,放到nt数据库去比对。之前都是一条一条提交,这种批量提取和提交都会遇到一些问题,因此,写这篇文章进行一个统计。
- 比对流程:随机提取序列→fastq转换fasta→提交序列→统计结果
- step.1 随机提取序列
- 使用工具:seqtk
- 安装方式:conda install seqtk
- 使用代码:
- seqtk sample -s 100 Carisma_control_ATCACGAT.fastq.gz 1000 > 1000reads_control.fastq #这里提取1000条
- # -s 随机种子,默认值11,不清楚可以百度了解一下
- 注意:一般进行随机比对会选择5000/10000条,不过ncbi在线平台对进程有控制,我试过,一次性跑不了5000条(PE100)。所以可以尝试跑1000或者2000条。
- step.2 格式转换
- 这个就比较简单,稍微百度一下,出来的前几个链接都是同样的一行代码可
2020.12.30丨随机读取reads使用ncbi在线工具比对nt数据库
最新推荐文章于 2024-08-30 00:37:47 发布