sra-tools 新 feature

sra-tools 新 feature

官方文档

– 2021-05-26 12:56:25 –

– 2021-01-14 17:03:18 –

可以直接通过 wget 下载数据.

这里重新记录一下提取方法. 居然又改成用 --split-3 了, 无话可说:

for srr in $(cat SraAccList.txt);
do 
	cd $srr/
	fastq-dump --split-3 $srr.sra
	cd -;
done

提取完成后或之前, 都可以用 vdb-validate * 批量校验数据, 但这个输出直接输出到屏幕, 不通过标准输出, 也不通过标准错误输出…

– 2020-3-26 18:02:21 –

最近重装了 conda 环境, 于是重新安装了 sra-tools.
使用时发现 fasterq-dump 的功能已经转移到 fastq-dump 中了, 于是踩了很多坑, 特此记录

~]$ fasterq-dump -e 16 --split-3 /■/■/../SRR■.sra
2020-03-26T07:09:39 fasterq-dump.2.10.3 err: name not found while resolving query within virtual file system module - faile
'../SRR■.sra' - Cannot resolve accession ( 404 )
fasterq-dump (PID ■) was killed (signal 9)
..]$ fasterq-dump -e 16 --split-3 ../SRR■.sra
2020-03-26T07:13:51 fasterq-dump.2.10.3 err: name not found while resolving query within virtual file system module - faile
'../SRR■.sra' - Cannot resolve accession ( 404 )
fasterq-dump (PID ■) was killed (signal 9)

虽然还是能看到 fasterq-dump 的 help, 但反正就是用不了. 换成 fastq-dmp. 惊喜发现

     --disable-multithreading      disable multithreading

fastq-dump 也用上多线程了! 那就用 fastq-dump 吧. 不过为什么 --split-3 命令出错了呢…

..]$ fastq-dump fastq-dump --gzip --split-3 SRR■.sra
unrecognized option: '--split-3'
..]$ fastq-dump --gzip --split-3 SRR■.sra 

unrecognized option: '--split-3'
..]$ fastq-dump --gzip -3 SRR■.sra        
unrecognized option: '-3'

然后用 sbatch 命令提交到服务器运行 (前情提要: 本环境中 sbatch 提交运行的服务器不能联网), 没一会就显示 FAILED, 查看错误日志:

Failed to call external services.

难道还需要联网吗?

fastq 的文档问题很大, 诚不我欺…


下面是新手记录的安装过程

安装 sra-tools

对于许多生信软件, ```conda 是一个很好的包管理系统, 只需运行
conda install -n env -c bioconda package -y

比如说要在环境 biotools 中安装 sra-tools, 输入 conda install -n biotools -c bioconda sra-tools -y 即可一键安装, 无需确认.

下载生信数据

收集数据 SRR 号

NCBI 中找到对应的数据集, 记录
在这里插入图片描述
Run 一栏下的编号;

若需要下载很多数据, 可以点击
在这里插入图片描述
收藏当前选择. 最后下载在这里插入图片描述
下载的 SraAccList.txt 中就是所有选中的数据的 SRR 号了.

下载到环境

有三种方法可以下载. sra-tools 中自带的方法是 prefetch.
输入 prefetch --option-file SraAccList.txt --output-directory dir 即可. 后台下载可使用 nohup 命令. 最后会将 .sra 文件下载到同名文件夹中.

提取数据

fastq 可以从 *.sra 中提取数据, 这里批量操作:

for srr in $(cat SraAccList.txt);
do 
	cd $srr/
	fastq-dump --split-e $srr.sra
	cd -;
done

唉…

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值