利用Cellranger对单细胞数据进行上游分析

       当我们从NCBI上下载好相应文章的转录组数据后,便需要对其进行上游分析和下游分析的探究。而由于我们现在测序通常采用10×Genomics单细胞转录组测序技术,其公司开发的Cellranger便成为现在不可或缺的单细胞测序分析软件,在此我们便对其用法进行相应介绍和学习。

Cellranger以及参考基因组的下载

        截至目前10×Genomics的官网显示Cellranger的最新版为“Cell Ranger (tar.gz compression) - 7.1.0 (December 7, 2022)” ,我们首先在Xshell执行下列代码之一下载Linux 64-bit的安装包:

curl -o cellranger-7.1.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1691177959&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2OTExNzc5NTl9fX1dfQ__&Signature=WSm6A5wdffwxMvdaT~b8kZtqWye1Kbf8RbgcH2pevR6lOantJcdy6kDJJV84iplwqn8MQZnVVgEwX8Bl1gr634SrodjGjbswyb-cBXdLrfjthvoZbs7Qen8ERzaViJasxHlIhSq4U2EjllQQvGsxYZU9EtGGIUNpt2fPH49TIz9gkX60OFrWrCMoSfo2ztZhpmxKVaxG6xFf7agA0FA3r-6Vsl~fnrEPcxDfsnhlz51ZWEmuyJuTtujq2VwhJ7TekT7AmCmH2alruflKggt3KzQ8Q6C7S5i8SGrbMpR4NYdnuw7aigbbMAguj1-Cfa5z7yJAa0jGHs5mpJqkOlpOpw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

wget -O cellranger-7.1.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1691177959&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2OTExNzc5NTl9fX1dfQ__&Signature=WSm6A5wdffwxMvdaT~b8kZtqWye1Kbf8RbgcH2pevR6lOantJcdy6kDJJV84iplwqn8MQZnVVgEwX8Bl1gr634SrodjGjbswyb-cBXdLrfjthvoZbs7Qen8ERzaViJasxHlIhSq4U2EjllQQvGsxYZU9EtGGIUNpt2fPH49TIz9gkX60OFrWrCMoSfo2ztZhpmxKVaxG6xFf7agA0FA3r-6Vsl~fnrEPcxDfsnhlz51ZWEmuyJuTtujq2VwhJ7TekT7AmCmH2alruflKggt3KzQ8Q6C7S5i8SGrbMpR4NYdnuw7aigbbMAguj1-Cfa5z7yJAa0jGHs5mpJqkOlpOpw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

          对参考基因组进行下载 : 

#人的参考基因组下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#小鼠参考基因组下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#人和小鼠基因组一起下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz

          对压缩包进行解压 :

tar -xzvf cellranger-7.1.0.tar.gz
tar -xzvf refdata-gex-mm10-2020-A.tar.gz
tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz
tar -xzvf refdata-gex-GRCh38-and-mm10-2020-A.tar.gz

          把Cellranger添加到系统变量:

sudo vim ~/.bashrc

           在.bashrc文件中添加下列途径,注意把PATH后面修改为Cellranger解压后文件路径:

export PATH=~/download/cellranger-7.1.0:$PATH

           更新一下.bashrc文件:

source ~/.bashrc

           随后可在Xshell输入“cellranger”检测是否安装成功,若出现如下图所示即为安装成功:

 

原始数据的下载与转换

           前期的数据下载部分可以参考之前的文章,这里对数据的处理进行一个改进:Linux系统中已知SRR号如何从NCBI上下载SRA数据到服务器中_暖begin的博客-CSDN博客高通量组学数据目前已经成为生物研究的重要板块,对于一些文章中出现的数据的挖掘尤其是人体数据的再利用也成为探究科学问题的重要前沿组成。通常情况下文章的高通量数据需要上传到NCBI的SRA(Sequence Read Archive)供大家下载学习,而我们也可以通过多种方法对数据进行下载再挖掘。如果仍然出现问题,请再次检查PATH设置是否正确,并确保在PATH中包含了sra-toolkit的bin目录。首先,我们在下面的网址中进入SRA Toolkit下载的官网。我们在NCBI上找到我们需要的数据的。https://blog.csdn.net/weixin_52660253/article/details/132042892?spm=1001.2014.3001.5501

           我们可以先下载的SRA文件转移到一个目录下方便后续批量分析:

mkdir raw
mv SRR*/*.sra raw/
cd raw

           随后将Sra文件转化为Fastq文件,可使用如下脚本“TOfastq.sh”:

#!/bin/bash
# 循环遍历所有.sra文件,并使用pfastq-dump将其转换为.fastq文件
for i in *sra
do
    echo "Processing file: $i"
    pfastq-dump --gzip --split-files -t 32 $i &
done

          而要使用pfastq-dump进行多线程运算可通过如下代码实现:

git clone https://github.com/inutano/pfastq-dump
cd pfastq-dump
chmod a+x bin/pfastq-dump
sudo vim ~/.bashrc
#在.bashrc文件添加如下绝对路径
export PATH=$PATH:/home/XX/Desktop/10X/pfastq/pfastq-dump/bin:$PATH
#保存后刷新、
source ~/.bashrc

         赋予脚本“TOfastq.sh”执行权限:

chmod +x TOfastq.sh
bash TOfastq.sh

        当Sra文件转化为双端Fastq文件后,我们需要对这些Fastq文件进行重命名以满足cellranger的处理要求,我们可以利用一个小脚本以实现重命名,其中SraAccList.txt就是如下图所示的排满SRR号的文本:

cat SraAccList.txt | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R2_001.fastq.gz);done

Cellranger运行 

  我们的运行脚本“run.sh”可以采用如下所示:

#!/bin/bash

# 指定参考基因组路径和fastq路径
db=/home/Name/refgenome/single-cell/refdata-gex-GRCh38-2020-A
fq_dir=/home/Name/bioinfo/MSC-scRNSseq/raw

# 从SraAccList.txt中读取样本ID并进行循环分析
while read sample_id; do
    echo "Processing sample: $sample_id"
    cellranger count --id="$sample_id" \
    --localcores=52 \
    --transcriptome="$db" \
    --fastqs="$fq_dir" \
    --sample="$sample_id" \
    --nosecondary
done < /home/Name/bioinfo/MSC-scRNSseq/raw/SraAccList.txt

#db后面为参考基因组路径
#fq_dir后面为待处理fastq文件路径
#其他参数可根据自身服务器进行调整

    编辑好脚本后直接运行即可

bash run.sh

    最后出现如下界面便表示已经开始跑数据了,接下来只需要等结果就OK:

     数据处理完成后界面如图所示:

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暖begin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值