单细胞上游-单样本示例

数据结构

下载GSE180268的一个样本GSM5456907,包含两个运行数据:SRR15178151,SRR15178152

其中GSM代表“Sample”,是一个实验中的每个独立样本的编号,SRR代表“Run”,是测序数据集的运行编号,即代表测序数据的片段编号。

这些编号之间的对应关系如下:

  • 一个GSM代表一个独立的生物学样本,可以有对应的SAMN编号。

  • 一个SRR代表一个测序数据集,对应于某个生物学样本的某个片段。

数据下载

GEO-Sra

# 编号文件
vim name
SRR15178151
SRR15178152
​
# 一键下载
nohup prefetch -O ./ --option-file name --max-size u 1>down.log 2>&1 &

参考:空间单细胞的上游定量流程(spaceranger,10x技术) (qq.com)

sra数据还需要拆分,此处每个sra拆分为了三个fastq

ls SRR*/*sra |while read id;do (fasterq-dump -O ./ --split-files -e 8 --include-technical ${id} );done 

其中--include-technical参数非常重要,如果没有该参数,无法拆出符合流程的数据

参考文章:10X单细胞转录组测序数据的 SRA转fastq踩坑那些事 (qq.com)

Cellranger安装

官网网址:Download Cell Ranger - Official 10x Genomics Support

如果linux太慢了,可以在Windows上下载后上传解压(但是通常linux更快

###创造一个conda环境,防止冲突
conda create -n cellranger
conda activate cellranger
​
###下载安装包,去官网获取最新链接
curl -o cellranger-7.2.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.2.0.tar.gz?Expires=1709678323&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=i5zvu0VyjGgZ1LdkHhI293kosRaiVZ5ScyjuqFVqopC9CXQD2cNFnUBCOMNi-D8LTP9uOxK0I1Tp7Yi~UD1a-rQAM0wysNYbHfO~1CfKEo4WvvweHD4eWPHR2Snd~rLFVRlbHFO3jD813omcOVEkBixblcqq1AMk~7u6eFQ1noNluUNjPrZ9L1k5lrwCZdJfNlWgNHoRxomDnRJAO2WGNt5Q~0o4jYklMVi80jKJLnlE0OWFOJJwviDH-Nr5WXe2HHIt5~Ny-SKDTDYT3USu-JE6aBBOjqagRQbwB-H7WiwVlNFjhscy8FWUbdzvlkl~ievpjDi~NmKV5X3d-W3ZHg__"
​
###解压
tar -zxvf cellranger-7.2.0.tar
​
###获取安装完成后的地址
cd cellranger-7.2.0
pwd
​
###地址类似如下
/home/data/xxx/5pro/data
​
###环境配置
export PATH=/home/data/xxx/5pro/data/cellranger:$PATH
​
###查看是否安装成功
which cellranger
cellranger -h

CellRanger命名规则

<样本名> S <采样编号> L <片段编号> < read type >_001.fastq.gz

官网的文件名规则:Specifying Input FASTQ Files for 10x Pipelines -Software -Single Cell Gene Expression -Official 10x Genomics Support

{sample}_S{sample_index}_L{lane}_R{read}_001.fastq.gz
--L #很大的测序数据(150G)往往会在不同泳道上测序,Lxxx表示泳道的编号,一般的数据通常为L001
​
# 可以通过zless SRR15178151_1.fastq.gz |head查看文件大小和内容来判断read type
 zless SRR15178151_1.fastq.gz |head
--R1 通常返回length 20+ 是第二大的
--R2 转录本reads,通常返回length 90+ 是最大的
--I1 sample index文件,通常返回length 10- 是最小的

本次使用的数据为一个样本,两个运行数据集

故设置样本名为GSM5456907,两个SRR分别为S1,S2,L为L001

GSM5456907_S1_L001_I1_001.fastq.gz(SRR15178151)

GSM5456907_S2_L001_I1_001.fastq.gz(SRR15178152)

参考文章:10x的单细胞转录组fastq文件的R1和R2不能弄混哦 (qq.com)

fastq改名代码

1.要AI写一个改名代码

2.利用for循环等批量echo出来命令:类似于mv oldname newname就可以,还有很多方法

for i in {1..4}
do
echo "mv"
done >x1
​
​
for i in {1..2}#根据SRR编号修改
do 
for id in {1..2}
do 
echo SRR1517815${i}_${id}.fastq.gz
done
done >x2
​
for i in {1..2}# 根据S的个数顺序修改
do 
for id in {2..1}
do 
echo GSM5456907_S${i}_L001_R${id}_001.fastq.gz
done
done > x3
​
paste x1 x2 >x
paste x x3 >k
cat k
​
bash k
i=1
id=1

fastq质控

nohup fastqc -t 20 -o ./qc GSM*.fastq.gz >qc.log & 
nohup multiqc  ./qc/*.zip  -o ./qc/ & >x.log

小问题

在这里碰到了问题,运行失败但是没有提示,猜测是cellranger单独安装在cellranger环境中,但是fastpc安装在另一个环境rna中,故运行失败,conad activate rna后运行成功。

参考基因下载

直接下载打包好的数据,包含了基因组、注释源文件,以及cell ranger自带的利用mkgtf构建的注释和mkref构建的基因组,也可以下载基因组,注释自己构建,参考文章:单细胞实战(三) Cell Ranger使用初探 (qq.com)

wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
tar -zxvf refdata-cellranger-GRCh38-3.0.0.tar.gz

解压后包含的内容:

chellranger定量

cellranger安装的是7.10版本

查看参数使用方式:

#shell
~/soft/cellranger-7.2.0/cellranger count -h
Options:
        # 输出文件夹,通常为样本名
      --id <ID>                A unique run id and output folder name [a-zA-Z0-9_-]+           # 参考基因组的路径
      --transcriptome <PATH>   Path of folder containing 10x-compatible transcriptome reference
        # 输入fastq.gz路径
      --fastqs <PATH>          Path to input FASTQ data
        # 要与输出文件夹对应,与该样本的所有子数据的开头字符对应
      --sample <PREFIX>        Prefix of the filenames of FASTQs to select
        # 设定输出的数据为原始counts
      --nosecondary            Disable secondary analysis, e.g. clustering. Optional

定量代码:

# 由于只有一个样本
nohup  ~/soft/cellranger-7.2.0/cellranger count \
--id GSM5456907 \
--transcriptome ~/5pro/refdata-cellranger-GRCh38-3.0.0/ \
--fastqs ~/5pro/data/ \
--sample GSM5456907 \
--nosecondary \
--localcores 4 \
--localmem 30 &
​
# 若有多个样本
ref  ~/5pro/refdata-cellranger-GRCh38-3.0.0/
cellranger  ~/soft/cellranger-7.2.0/cellranger count
ls ../raw/*gz|cut -d"_" -f 1 |sort -u|cut -d"/" -f 3 | cut -d "_" -f 1 | uniq | while read id;do
nohup ${cellranger} count \
--id ${id} \
--transcriptome ${ref} \
--fastqs ../raw \
--sample ${id} \
--nosecondary \
--localcores 4 \
--localmem 30 &
done

  • 25
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值