对于10X单细胞数据的预处理,我们前面介绍了详细步骤:
21天精通单细胞数据分析Day03:10X单细胞RNA数据集的预处理
今天我们来介绍一种更为简单的方法:一键处理 10X 下机数据。
流程简介
流程地址:https://usegalaxy.cn > 流程 > scRNA-seq_preprocessing_10X_v3_Bundle (release v0.1)
本流程使用 RNA STARSolo 分析 10X 基因组学的 v3 化学版本数据。从Fastq文件得到与 CellRanger 类似的3个输出文件:barcodes.tsv, genes.tsv 以及 matrix.mtx。
流程预览
点击小眼睛图标,即可预览流程。可以看到,该流程主要调用 RNA STARSolo 进行数据处理,最后将 log文件和 gene counts 文件交给 MultiQC 进行汇总。
运行流程
运行流程非常简单,这也是一键分析的含义。只需要设置:
• 参考基因组(可以是服务器内置的,也可以是自己上传的)
• GTF文件(可以自行上传,或使用平台提供的)
• Barcode文件(来自于10X下机数据)
• cDNA文件(来自于10X下机数据)
• Barcode白名单(来自于10X官网,v3版本的是:3M-february-2018.txt)
• Barcode长度是否与Read长度相等(通常情况下,Read中不含 poly-T 时,设置为“是”,否则设置为“否”)
• 预期数据数(一个整数,表示预期样本中有多少个细胞)
设置完毕,点击“运行流程”就可以了。
细心的朋友可能注意到,RNA STARSolo 不需要 10X 下机的 I1(Illumina通道信息)
文件。
结果解读
流程会输出 9 个文件,其中3个类似于CellRanger的输出文件:
• genes.tsv,基因列表
• barcodes.tsv,条码列表
• matrix.mtx,定量矩阵
其他文件是:
• log 文件,记录RNA STARSolo 运行过程中产生的日志
• bam 文件,是Reads比对到参考基因组上的比对文件
• summaries 文件,比对情况的摘要文件
• 基因的表达量矩阵,每个基因的reads数进行合并后的结果文件,可用于 MultiQC 汇总
• MultiQC 使用的原始数据
• MultiQC 汇总的网页
注意事项
本流程专用于10X基因组学的 v3 版本下机数据。目前支持输入一个Barcode文件,一个cDNA文件。暂时还不支持多Lane的情况。如果下机数据有多条 Lane,可以直接使用 RNA STARsolo 工具进行分析:
https://usegalaxy.cn > 工具 > RNA STARSolo
云上转录组分析流程(点击图片跳转)
什么生信流程语言让你极度爽?(点击图片跳转)
推荐阅读:
网上最全的 R 语言图库(建议收藏)| 简说基因 Recommend
生物信息学必备的R语言相关参考书 | 简说基因 Recommand
关于简说基因
生信平台
Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。
联系方式
QQ交流群(免费):925694514
微信交流群(免费):加微信好友,注明“Galaxy交流群”
客服微信:usegalaxy