文章目录
一、读文献并下载数据
1.1、试图使用sratoolkit下载,虽然总是失败,但原理上应该没错
#安装sratoolkit,从NCBI主页获取软件包下载地址
1.1.1、下载sratoolkit软件包
wget -P ~/SCS2021/wes_cancer/biosoft https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.11.0/sratoolkit.2.11.0-centos_linux64.tar.gz
1.1.2、解压压缩包
#用tar命令的-C参数,设置解压文件保存路径在 ~/Scs2021/wes_cancer/biosoft
tar -zvxf sratoolkit.2.11.0-centos_linux64.tar.gz -C .
1.1.3、测试安装是否成功
~/SCS2021/wes_cancer/biosoft/sratoolkit.2.11.0-centos_linux64/bin/fastq-dump -h
#4、将sratoolkit安装文件路径加入环境变量
echo ‘export PATH=~/SCS2021/wes_cancer/biosoft/sratoolkit.2.11.0-centos_linux64/bin:$PATH’ >> ~/.bashrc
source ~/.bashrc
1.2、获取SRP070662的下载链接
#1.2.1 wget方法下载(本人采用,因为听说wget更加稳定,缺点是很慢)
去ENA主要搜索SRP070662,下载case1
将SRR号都写在~/SCS2021/wes_cancer/project/SRR_Acc_List.txt中,cat后展示如下
#批量获得SRR_1代码
cat SRR_Acc_List.txt|while read id ;do t1=${
id:0:6};t2=${
id:9:10};t3=${
id:0:10};echo "ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/$t1/00$t2/$t3/${t3}_1.fastq.gz ." ;done
#批量获得SRR_2代码
cat SRR_Acc_List.txt|while read id ;do t1=${
id:0:6};t2=${
id:9:10};t3=${
id:0:10};echo "ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/$t1/00$t2/$t3/${t3}_2.fastq.gz ." ;done
#写入fq_2.sh中
给下载好的fastq文件重命名
最终结果
#1.2.2 aspera下载(尝试,但总是断,于是放弃)
#去ENA主要搜索SRP070662,选择aspera-sra数据,下面会出来相应下载网址,其余步骤参考1.2.1,不具体写了,以下代码供参考(不完整)
#得出批量下载代码
`cat SRR_Acc_List.txt|while read id
do
t1=${
id:0:6};t2=${
id:9:10};t3=${
id:0:10}
echo "ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/$t1/00$t2/$t3/$t3.fastq.gz ."
done
#得出批量转移代码
cat SRR_Acc_List.txt|while read id
do t1=${
id:0:6};t2=${
id:9:10};t3=${
id:0:10}
echo "mv ${t3}_1.fastq.gz ${t3}_exome_sequencing_of_case1_germline_1.fastq.gz"
done
#写入一个脚本中运行
cd ~/SCS2021/wes_cancer/project/1.raw
touch fq_download.sh
vi fq_download.sh #放入上述批量下载代码和转移代码
#!/usr/bin/env bash
nohup bash fq_download.sh &
3.迅雷下载
注:当用wget下载不能确定是否下载完整的时候,可以使用迅雷看差不多有多少个G
**
二、质控与去接头
**
2.1 fastqc
在project文件夹下创建config,进行批量操作获得相应代码
cat config | while read id
do
fastqc --outdir ./3.qc/raw_qc --threads 16 ./1.raw_fq/${
id}*.fastq.gz >> ./3.qc/raw_qc/${
id}_fastqc.log 2>&1
done
multiqc ./3.qc