数据结构
下载GSE180268的一个样本GSM5456907,包含两个运行数据:SRR15178151,SRR15178152
其中GSM代表“Sample”,是一个实验中的每个独立样本的编号,SRR代表“Run”,是测序数据集的运行编号,即代表测序数据的片段编号。
这些编号之间的对应关系如下:
-
一个GSM代表一个独立的生物学样本,可以有对应的SAMN编号。
-
一个SRR代表一个测序数据集,对应于某个生物学样本的某个片段。
数据下载
GEO-Sra
# 编号文件
vim name
SRR15178151
SRR15178152
# 一键下载
nohup prefetch -O ./ --option-file name --max-size u 1>down.log 2>&1 &
参考:空间单细胞的上游定量流程(spaceranger,10x技术) (qq.com)
sra数据还需要拆分,此处每个sra拆分为了三个fastq
ls SRR*/*sra |while read id;do (fasterq-dump -O ./ --split-files -e 8 --include-technical ${id} );done
其中--include-technical参数非常重要,如果没有该参数,无法拆出符合流程的数据
参考文章:10X单细胞转录组测序数据的 SRA转fastq踩坑那些事 (qq.com)
Cellranger安装
官网网址:Download Cell Ranger - Official 10x Genomics Support
如果linux太慢了,可以在Windows上下载后上传解压(但是通常linux更快
###创造一个conda环境,防止冲突
conda create -n cellranger
conda activate cellranger
###下载安装包,去官网获取最新链接
curl -o cellranger-7.2.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.2.0.tar.gz?Expires=1709678323&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=i5zvu0VyjGgZ1LdkHhI293kosRaiVZ5ScyjuqFVqopC9CXQD2cNFnUBCOMNi-D8LTP9uOxK0I1Tp7Yi~UD1a-rQAM0wysNYbHfO~1CfKEo4WvvweHD4eWPHR2Snd~rLFVRlbHFO3jD813omcOVEkBixblcqq1AMk~7u6eFQ1noNluUNjPrZ9L1k5lrwCZdJfNlWgNHoRxomDnRJAO2WGNt5Q~0o4jYklMVi80jKJLnlE0OWFOJJwviDH-Nr5WXe2HHIt5~Ny-SKDTDYT3USu-JE6aBBOjqagRQbwB-H7WiwVlNFjhscy8FWUbdzvlkl~ievpjDi~NmKV5X3d-W3ZHg__"
###解压
tar -zxvf cellranger-7.2.0.tar
###获取安装完成后的地址
cd cellranger-7.2.0
pwd
###地址类似如下
/home/data/xxx/5pro/data
###环境配置
export PATH=/home/data/xxx/5pro/data/cellranger:$PATH
###查看是否安装成功
which cellranger
cellranger -h
CellRanger命名规则
<样本名> S <采样编号> L <片段编号> < read type >_001.fastq.gz
{sample}_S{sample_index}_L{lane}_R{read}_001.fastq.gz
--L #很大的测序数据(150G)往往会在不同泳道上测序,Lxxx表示泳道的编号,一般的数据通常为L001
# 可以通过zless SRR15178151_1.fastq.gz |head查看文件大小和内容来判断read type
zless SRR15178151_1.fastq.gz |head
--R1 通常返回length 20+ 是第二大的
--R2 转录本reads,通常返回length 90+ 是最大的
--I1 sample index文件,通常返回length 10- 是最小的
本次使用的数据为一个样本,两个运行数据集
故设置样本名为GSM5456907,两个SRR分别为S1,S2,L为L001
GSM5456907_S1_L001_I1_001.fastq.gz(SRR15178151)
GSM5456907_S2_L001_I1_001.fastq.gz(SRR15178152)
参考文章:10x的单细胞转录组fastq文件的R1和R2不能弄混哦 (qq.com)
fastq改名代码
1.要AI写一个改名代码
2.利用for循环等批量echo出来命令:类似于mv oldname newname就可以,还有很多方法
for i in {1..4}
do
echo "mv"
done >x1
for i in {1..2}#根据SRR编号修改
do
for id in {1..2}
do
echo SRR1517815${i}_${id}.fastq.gz
done
done >x2
for i in {1..2}# 根据S的个数顺序修改
do
for id in {2..1}
do
echo GSM5456907_S${i}_L001_R${id}_001.fastq.gz
done
done > x3
paste x1 x2 >x
paste x x3 >k
cat k
bash k
i=1
id=1
fastq质控
nohup fastqc -t 20 -o ./qc GSM*.fastq.gz >qc.log &
nohup multiqc ./qc/*.zip -o ./qc/ & >x.log
小问题
在这里碰到了问题,运行失败但是没有提示,猜测是cellranger单独安装在cellranger环境中,但是fastpc安装在另一个环境rna中,故运行失败,conad activate rna后运行成功。
参考基因下载
直接下载打包好的数据,包含了基因组、注释源文件,以及cell ranger自带的利用mkgtf构建的注释和mkref构建的基因组,也可以下载基因组,注释自己构建,参考文章:单细胞实战(三) Cell Ranger使用初探 (qq.com)
wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
tar -zxvf refdata-cellranger-GRCh38-3.0.0.tar.gz
解压后包含的内容:
chellranger定量
cellranger安装的是7.10版本
查看参数使用方式:
#shell
~/soft/cellranger-7.2.0/cellranger count -h
Options:
# 输出文件夹,通常为样本名
--id <ID> A unique run id and output folder name [a-zA-Z0-9_-]+ # 参考基因组的路径
--transcriptome <PATH> Path of folder containing 10x-compatible transcriptome reference
# 输入fastq.gz路径
--fastqs <PATH> Path to input FASTQ data
# 要与输出文件夹对应,与该样本的所有子数据的开头字符对应
--sample <PREFIX> Prefix of the filenames of FASTQs to select
# 设定输出的数据为原始counts
--nosecondary Disable secondary analysis, e.g. clustering. Optional
定量代码:
# 由于只有一个样本
nohup ~/soft/cellranger-7.2.0/cellranger count \
--id GSM5456907 \
--transcriptome ~/5pro/refdata-cellranger-GRCh38-3.0.0/ \
--fastqs ~/5pro/data/ \
--sample GSM5456907 \
--nosecondary \
--localcores 4 \
--localmem 30 &
# 若有多个样本
ref ~/5pro/refdata-cellranger-GRCh38-3.0.0/
cellranger ~/soft/cellranger-7.2.0/cellranger count
ls ../raw/*gz|cut -d"_" -f 1 |sort -u|cut -d"/" -f 3 | cut -d "_" -f 1 | uniq | while read id;do
nohup ${cellranger} count \
--id ${id} \
--transcriptome ${ref} \
--fastqs ../raw \
--sample ${id} \
--nosecondary \
--localcores 4 \
--localmem 30 &
done