单细胞上游-单样本示例

惊岁晚

于 2024-03-07 19:54:55 发布

阅读量747

点赞数 25

文章标签： r语言

本文链接：https://blog.csdn.net/weixin_51120349/article/details/136541122

版权

数据结构

下载GSE180268的一个样本GSM5456907，包含两个运行数据：SRR15178151，SRR15178152

其中GSM代表“Sample”，是一个实验中的每个独立样本的编号，SRR代表“Run”，是测序数据集的运行编号，即代表测序数据的片段编号。

这些编号之间的对应关系如下：

一个GSM代表一个独立的生物学样本，可以有对应的SAMN编号。
一个SRR代表一个测序数据集，对应于某个生物学样本的某个片段。

数据下载

GEO-Sra

# 编号文件
vim name
SRR15178151
SRR15178152

# 一键下载
nohup prefetch -O ./ --option-file name --max-size u 1>down.log 2>&1 &

参考：空间单细胞的上游定量流程（spaceranger，10x技术） (qq.com)

sra数据还需要拆分，此处每个sra拆分为了三个fastq

ls SRR*/*sra |while read id;do (fasterq-dump -O ./ --split-files -e 8 --include-technical ${id} );done

其中--include-technical参数非常重要，如果没有该参数，无法拆出符合流程的数据

参考文章：10X单细胞转录组测序数据的 SRA转fastq踩坑那些事 (qq.com)

Cellranger安装

官网网址：Download Cell Ranger - Official 10x Genomics Support

如果linux太慢了，可以在Windows上下载后上传解压（但是通常linux更快

###创造一个conda环境，防止冲突
conda create -n cellranger
conda activate cellranger

###下载安装包，去官网获取最新链接
curl -o cellranger-7.2.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.2.0.tar.gz?Expires=1709678323&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=i5zvu0VyjGgZ1LdkHhI293kosRaiVZ5ScyjuqFVqopC9CXQD2cNFnUBCOMNi-D8LTP9uOxK0I1Tp7Yi~UD1a-rQAM0wysNYbHfO~1CfKEo4WvvweHD4eWPHR2Snd~rLFVRlbHFO3jD813omcOVEkBixblcqq1AMk~7u6eFQ1noNluUNjPrZ9L1k5lrwCZdJfNlWgNHoRxomDnRJAO2WGNt5Q~0o4jYklMVi80jKJLnlE0OWFOJJwviDH-Nr5WXe2HHIt5~Ny-SKDTDYT3USu-JE6aBBOjqagRQbwB-H7WiwVlNFjhscy8FWUbdzvlkl~ievpjDi~NmKV5X3d-W3ZHg__"

###解压
tar -zxvf cellranger-7.2.0.tar

###获取安装完成后的地址
cd cellranger-7.2.0
pwd

###地址类似如下
/home/data/xxx/5pro/data

###环境配置
export PATH=/home/data/xxx/5pro/data/cellranger:$PATH

###查看是否安装成功
which cellranger
cellranger -h

CellRanger命名规则

<样本名> S <采样编号> L <片段编号> < read type >_001.fastq.gz

官网的文件名规则：Specifying Input FASTQ Files for 10x Pipelines -Software -Single Cell Gene Expression -Official 10x Genomics Support

{sample}_S{sample_index}_L{lane}_R{read}_001.fastq.gz
--L #很大的测序数据（150G）往往会在不同泳道上测序，Lxxx表示泳道的编号，一般的数据通常为L001

# 可以通过zless SRR15178151_1.fastq.gz |head查看文件大小和内容来判断read type
 zless SRR15178151_1.fastq.gz |head
--R1 通常返回length 20+ 是第二大的
--R2 转录本reads,通常返回length 90+ 是最大的
--I1 sample index文件，通常返回length 10- 是最小的

本次使用的数据为一个样本，两个运行数据集

故设置样本名为GSM5456907，两个SRR分别为S1，S2，L为L001

GSM5456907_S1_L001_I1_001.fastq.gz（SRR15178151）

GSM5456907_S2_L001_I1_001.fastq.gz（SRR15178152）

参考文章：10x的单细胞转录组fastq文件的R1和R2不能弄混哦 (qq.com)

fastq改名代码

1.要AI写一个改名代码

2.利用for循环等批量echo出来命令：类似于mv oldname newname就可以,还有很多方法

for i in {1..4}
do
echo "mv"
done >x1


for i in {1..2}#根据SRR编号修改
do 
for id in {1..2}
do 
echo SRR1517815${i}_${id}.fastq.gz
done
done >x2

for i in {1..2}# 根据S的个数顺序修改
do 
for id in {2..1}
do 
echo GSM5456907_S${i}_L001_R${id}_001.fastq.gz
done
done > x3

paste x1 x2 >x
paste x x3 >k
cat k

bash k
i=1
id=1

fastq质控

nohup fastqc -t 20 -o ./qc GSM*.fastq.gz >qc.log & 
nohup multiqc  ./qc/*.zip  -o ./qc/ & >x.log

小问题

在这里碰到了问题，运行失败但是没有提示，猜测是cellranger单独安装在cellranger环境中，但是fastpc安装在另一个环境rna中，故运行失败，conad activate rna后运行成功。

参考基因下载

直接下载打包好的数据，包含了基因组、注释源文件，以及cell ranger自带的利用mkgtf构建的注释和mkref构建的基因组，也可以下载基因组，注释自己构建，参考文章：单细胞实战(三) Cell Ranger使用初探 (qq.com)

wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
tar -zxvf refdata-cellranger-GRCh38-3.0.0.tar.gz

解压后包含的内容：

chellranger定量

cellranger安装的是7.10版本

查看参数使用方式：

#shell
~/soft/cellranger-7.2.0/cellranger count -h

Options:
        # 输出文件夹，通常为样本名
      --id <ID>                A unique run id and output folder name [a-zA-Z0-9_-]+           # 参考基因组的路径
      --transcriptome <PATH>   Path of folder containing 10x-compatible transcriptome reference
        # 输入fastq.gz路径
      --fastqs <PATH>          Path to input FASTQ data
        # 要与输出文件夹对应，与该样本的所有子数据的开头字符对应
      --sample <PREFIX>        Prefix of the filenames of FASTQs to select
        # 设定输出的数据为原始counts
      --nosecondary            Disable secondary analysis, e.g. clustering. Optional

定量代码：

# 由于只有一个样本
nohup  ~/soft/cellranger-7.2.0/cellranger count \
--id GSM5456907 \
--transcriptome ~/5pro/refdata-cellranger-GRCh38-3.0.0/ \
--fastqs ~/5pro/data/ \
--sample GSM5456907 \
--nosecondary \
--localcores 4 \
--localmem 30 &

# 若有多个样本
ref  ~/5pro/refdata-cellranger-GRCh38-3.0.0/
cellranger  ~/soft/cellranger-7.2.0/cellranger count
ls ../raw/*gz|cut -d"_" -f 1 |sort -u|cut -d"/" -f 3 | cut -d "_" -f 1 | uniq | while read id;do
nohup ${cellranger} count \
--id ${id} \
--transcriptome ${ref} \
--fastqs ../raw \
--sample ${id} \
--nosecondary \
--localcores 4 \
--localmem 30 &
done

惊岁晚

关注

25
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
单细胞上游-单样本示例

在这里碰到了问题，运行失败但是没有提示，猜测是cellranger单独安装在cellranger环境中，但是fastpc安装在另一个环境rna中，故运行失败，conad activate rna后运行成功。其中GSM代表“Sample”，是一个实验中的每个独立样本的编号，SRR代表“Run”，是测序数据集的运行编号，即代表测序数据的片段编号。的一个样本GSM5456907，包含两个运行数据：SRR15178151，SRR15178152。一个GSM代表一个独立的生物学样本，可以有对应的SAMN编号。
复制链接

扫一扫