利用Cellranger对单细胞数据进行上游分析

暖begin

已于 2023-08-04 17:44:24 修改

阅读量1.1k

点赞数 2

文章标签：服务器 linux 数据库

于 2023-08-04 16:51:48 首次发布

本文链接：https://blog.csdn.net/weixin_52660253/article/details/132105672

版权

当我们从NCBI上下载好相应文章的转录组数据后，便需要对其进行上游分析和下游分析的探究。而由于我们现在测序通常采用10×Genomics单细胞转录组测序技术，其公司开发的Cellranger便成为现在不可或缺的单细胞测序分析软件，在此我们便对其用法进行相应介绍和学习。

Cellranger以及参考基因组的下载

截至目前10×Genomics的官网显示Cellranger的最新版为“Cell Ranger (tar.gz compression) - 7.1.0 (December 7, 2022)” ，我们首先在Xshell执行下列代码之一下载Linux 64-bit的安装包：

curl -o cellranger-7.1.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1691177959&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2OTExNzc5NTl9fX1dfQ__&Signature=WSm6A5wdffwxMvdaT~b8kZtqWye1Kbf8RbgcH2pevR6lOantJcdy6kDJJV84iplwqn8MQZnVVgEwX8Bl1gr634SrodjGjbswyb-cBXdLrfjthvoZbs7Qen8ERzaViJasxHlIhSq4U2EjllQQvGsxYZU9EtGGIUNpt2fPH49TIz9gkX60OFrWrCMoSfo2ztZhpmxKVaxG6xFf7agA0FA3r-6Vsl~fnrEPcxDfsnhlz51ZWEmuyJuTtujq2VwhJ7TekT7AmCmH2alruflKggt3KzQ8Q6C7S5i8SGrbMpR4NYdnuw7aigbbMAguj1-Cfa5z7yJAa0jGHs5mpJqkOlpOpw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

wget -O cellranger-7.1.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1691177959&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2OTExNzc5NTl9fX1dfQ__&Signature=WSm6A5wdffwxMvdaT~b8kZtqWye1Kbf8RbgcH2pevR6lOantJcdy6kDJJV84iplwqn8MQZnVVgEwX8Bl1gr634SrodjGjbswyb-cBXdLrfjthvoZbs7Qen8ERzaViJasxHlIhSq4U2EjllQQvGsxYZU9EtGGIUNpt2fPH49TIz9gkX60OFrWrCMoSfo2ztZhpmxKVaxG6xFf7agA0FA3r-6Vsl~fnrEPcxDfsnhlz51ZWEmuyJuTtujq2VwhJ7TekT7AmCmH2alruflKggt3KzQ8Q6C7S5i8SGrbMpR4NYdnuw7aigbbMAguj1-Cfa5z7yJAa0jGHs5mpJqkOlpOpw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

对参考基因组进行下载：

#人的参考基因组下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#小鼠参考基因组下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#人和小鼠基因组一起下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz

对压缩包进行解压：

tar -xzvf cellranger-7.1.0.tar.gz
tar -xzvf refdata-gex-mm10-2020-A.tar.gz
tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz
tar -xzvf refdata-gex-GRCh38-and-mm10-2020-A.tar.gz

把Cellranger添加到系统变量：

sudo vim ~/.bashrc

在.bashrc文件中添加下列途径，注意把PATH后面修改为Cellranger解压后文件路径：

export PATH=~/download/cellranger-7.1.0:$PATH

更新一下.bashrc文件：

source ~/.bashrc

随后可在Xshell输入“cellranger”检测是否安装成功，若出现如下图所示即为安装成功：

原始数据的下载与转换

前期的数据下载部分可以参考之前的文章，这里对数据的处理进行一个改进：Linux系统中已知SRR号如何从NCBI上下载SRA数据到服务器中_暖begin的博客-CSDN博客高通量组学数据目前已经成为生物研究的重要板块，对于一些文章中出现的数据的挖掘尤其是人体数据的再利用也成为探究科学问题的重要前沿组成。通常情况下文章的高通量数据需要上传到NCBI的SRA（Sequence Read Archive）供大家下载学习，而我们也可以通过多种方法对数据进行下载再挖掘。如果仍然出现问题，请再次检查PATH设置是否正确，并确保在PATH中包含了sra-toolkit的bin目录。首先，我们在下面的网址中进入SRA Toolkit下载的官网。我们在NCBI上找到我们需要的数据的。https://blog.csdn.net/weixin_52660253/article/details/132042892?spm=1001.2014.3001.5501

我们可以先下载的SRA文件转移到一个目录下方便后续批量分析：

mkdir raw
mv SRR*/*.sra raw/
cd raw

随后将Sra文件转化为Fastq文件，可使用如下脚本“TOfastq.sh”：

#!/bin/bash
# 循环遍历所有.sra文件，并使用pfastq-dump将其转换为.fastq文件
for i in *sra
do
    echo "Processing file: $i"
    pfastq-dump --gzip --split-files -t 32 $i &
done

而要使用pfastq-dump进行多线程运算可通过如下代码实现：

git clone https://github.com/inutano/pfastq-dump
cd pfastq-dump
chmod a+x bin/pfastq-dump
sudo vim ~/.bashrc
#在.bashrc文件添加如下绝对路径
export PATH=$PATH:/home/XX/Desktop/10X/pfastq/pfastq-dump/bin:$PATH
#保存后刷新、
source ~/.bashrc

赋予脚本“TOfastq.sh”执行权限：

chmod +x TOfastq.sh
bash TOfastq.sh

当Sra文件转化为双端Fastq文件后，我们需要对这些Fastq文件进行重命名以满足cellranger的处理要求，我们可以利用一个小脚本以实现重命名，其中SraAccList.txt就是如下图所示的排满SRR号的文本：

cat SraAccList.txt | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R2_001.fastq.gz);done

Cellranger运行

我们的运行脚本“run.sh”可以采用如下所示：

#!/bin/bash

# 指定参考基因组路径和fastq路径
db=/home/Name/refgenome/single-cell/refdata-gex-GRCh38-2020-A
fq_dir=/home/Name/bioinfo/MSC-scRNSseq/raw

# 从SraAccList.txt中读取样本ID并进行循环分析
while read sample_id; do
    echo "Processing sample: $sample_id"
    cellranger count --id="$sample_id" \
    --localcores=52 \
    --transcriptome="$db" \
    --fastqs="$fq_dir" \
    --sample="$sample_id" \
    --nosecondary
done < /home/Name/bioinfo/MSC-scRNSseq/raw/SraAccList.txt

#db后面为参考基因组路径
#fq_dir后面为待处理fastq文件路径
#其他参数可根据自身服务器进行调整

编辑好脚本后直接运行即可

bash run.sh

最后出现如下界面便表示已经开始跑数据了，接下来只需要等结果就OK：

数据处理完成后界面如图所示：

暖begin

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
2
评论
利用Cellranger对单细胞数据进行上游分析

当我们从NCBI上下载好相应文章的转录组数据后，便需要对其进行上游分析和下游分析的探究。而由于我们现在测序通常采用10×Genomics单细胞转录组测序技术，其公司开发的Cellranger便成为现在不可或缺的单细胞测序分析软件，在此我们便对其用法进行相应介绍和学习。
复制链接

扫一扫