当我们从NCBI上下载好相应文章的转录组数据后,便需要对其进行上游分析和下游分析的探究。而由于我们现在测序通常采用10×Genomics单细胞转录组测序技术,其公司开发的Cellranger便成为现在不可或缺的单细胞测序分析软件,在此我们便对其用法进行相应介绍和学习。
Cellranger以及参考基因组的下载
截至目前10×Genomics的官网显示Cellranger的最新版为“Cell Ranger (tar.gz compression) - 7.1.0 (December 7, 2022)” ,我们首先在Xshell执行下列代码之一下载Linux 64-bit的安装包:
curl -o cellranger-7.1.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1691177959&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2OTExNzc5NTl9fX1dfQ__&Signature=WSm6A5wdffwxMvdaT~b8kZtqWye1Kbf8RbgcH2pevR6lOantJcdy6kDJJV84iplwqn8MQZnVVgEwX8Bl1gr634SrodjGjbswyb-cBXdLrfjthvoZbs7Qen8ERzaViJasxHlIhSq4U2EjllQQvGsxYZU9EtGGIUNpt2fPH49TIz9gkX60OFrWrCMoSfo2ztZhpmxKVaxG6xFf7agA0FA3r-6Vsl~fnrEPcxDfsnhlz51ZWEmuyJuTtujq2VwhJ7TekT7AmCmH2alruflKggt3KzQ8Q6C7S5i8SGrbMpR4NYdnuw7aigbbMAguj1-Cfa5z7yJAa0jGHs5mpJqkOlpOpw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
wget -O cellranger-7.1.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1691177959&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2OTExNzc5NTl9fX1dfQ__&Signature=WSm6A5wdffwxMvdaT~b8kZtqWye1Kbf8RbgcH2pevR6lOantJcdy6kDJJV84iplwqn8MQZnVVgEwX8Bl1gr634SrodjGjbswyb-cBXdLrfjthvoZbs7Qen8ERzaViJasxHlIhSq4U2EjllQQvGsxYZU9EtGGIUNpt2fPH49TIz9gkX60OFrWrCMoSfo2ztZhpmxKVaxG6xFf7agA0FA3r-6Vsl~fnrEPcxDfsnhlz51ZWEmuyJuTtujq2VwhJ7TekT7AmCmH2alruflKggt3KzQ8Q6C7S5i8SGrbMpR4NYdnuw7aigbbMAguj1-Cfa5z7yJAa0jGHs5mpJqkOlpOpw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
对参考基因组进行下载 :
#人的参考基因组下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#小鼠参考基因组下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#人和小鼠基因组一起下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
对压缩包进行解压 :
tar -xzvf cellranger-7.1.0.tar.gz
tar -xzvf refdata-gex-mm10-2020-A.tar.gz
tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz
tar -xzvf refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
把Cellranger添加到系统变量:
sudo vim ~/.bashrc
在.bashrc文件中添加下列途径,注意把PATH后面修改为Cellranger解压后文件路径:
export PATH=~/download/cellranger-7.1.0:$PATH
更新一下.bashrc文件:
source ~/.bashrc
随后可在Xshell输入“cellranger”检测是否安装成功,若出现如下图所示即为安装成功:
原始数据的下载与转换
我们可以先下载的SRA文件转移到一个目录下方便后续批量分析:
mkdir raw
mv SRR*/*.sra raw/
cd raw
随后将Sra文件转化为Fastq文件,可使用如下脚本“TOfastq.sh”:
#!/bin/bash
# 循环遍历所有.sra文件,并使用pfastq-dump将其转换为.fastq文件
for i in *sra
do
echo "Processing file: $i"
pfastq-dump --gzip --split-files -t 32 $i &
done
而要使用pfastq-dump进行多线程运算可通过如下代码实现:
git clone https://github.com/inutano/pfastq-dump
cd pfastq-dump
chmod a+x bin/pfastq-dump
sudo vim ~/.bashrc
#在.bashrc文件添加如下绝对路径
export PATH=$PATH:/home/XX/Desktop/10X/pfastq/pfastq-dump/bin:$PATH
#保存后刷新、
source ~/.bashrc
赋予脚本“TOfastq.sh”执行权限:
chmod +x TOfastq.sh
bash TOfastq.sh
当Sra文件转化为双端Fastq文件后,我们需要对这些Fastq文件进行重命名以满足cellranger的处理要求,我们可以利用一个小脚本以实现重命名,其中SraAccList.txt就是如下图所示的排满SRR号的文本:
cat SraAccList.txt | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R2_001.fastq.gz);done
Cellranger运行
我们的运行脚本“run.sh”可以采用如下所示:
#!/bin/bash
# 指定参考基因组路径和fastq路径
db=/home/Name/refgenome/single-cell/refdata-gex-GRCh38-2020-A
fq_dir=/home/Name/bioinfo/MSC-scRNSseq/raw
# 从SraAccList.txt中读取样本ID并进行循环分析
while read sample_id; do
echo "Processing sample: $sample_id"
cellranger count --id="$sample_id" \
--localcores=52 \
--transcriptome="$db" \
--fastqs="$fq_dir" \
--sample="$sample_id" \
--nosecondary
done < /home/Name/bioinfo/MSC-scRNSseq/raw/SraAccList.txt
#db后面为参考基因组路径
#fq_dir后面为待处理fastq文件路径
#其他参数可根据自身服务器进行调整
编辑好脚本后直接运行即可
bash run.sh
最后出现如下界面便表示已经开始跑数据了,接下来只需要等结果就OK:
数据处理完成后界面如图所示: