2022.04.13【读书笔记】|10X单细胞转录组分析流程介绍

34 篇文章 15 订阅
5 篇文章 4 订阅

摘要

本次笔记是基迪奥单细胞课程第二章,根据课件以及上课老师的情况来看,比之前的美格和菲沙都要好一些,而且价格更优惠。从官网也可以看到基迪奥在培训这方面是作为重点业务。等上完剩余课程,我会进行一个简单的小结,来评估几个公司之间的课程质量。
之前公司生信团队已经对单细胞分析有部分研究讨论,本次课程可以对大家进行一个查缺补漏,内容也更加全面和体系化,因此还是比较推荐。

课程目录

流程分析软件

软件期刊运行环境
CellRanger--
SeuratNature BiotechnologyR
ScanpyGenomic Biologypython
scVINature Methodspython
BioconductorNature MethodsR
……

基础分析流程

数据质控

测序统计

统计测序饱和度、捕获细胞数、平均数据量、平均检测基因数。
使用官方软件:Cell Ranger
在这里插入图片描述

细胞过滤

1)高RNA量细胞捕获
UMI总量最高的前N(预期细胞数)个细胞RNA总表达丰度的
99%分位数的1/10,作为有效细胞的最低阈值

2)低RNA量细胞捕获
确定空载的GEM的丰度基线,然后找出与空载的GEM存在显著差异
的GEM。这个步骤可能可以额外找到低RNA丰度的细胞。
在这里插入图片描述

表达定量

Read1 提 取 16bp GemCode Barcode 和12bp UMI,
Read2 提 取 cDNA插入片段
利用GemCode序列来区分细胞
利用UMI来区分不同原始转录本:利 用Read2 比对基因,
利用Read1 的UMI进行定量
在这里插入图片描述

聚类分群

数据合并

同时分析多个样本时,需要将各个样本合并为一套数据,便于
后期进行样本间的比较。

批次效应

批次效应(Batch effect)通常指的是实验指标检测中,来源关注的生物学处理效应之外的其他因素导致的样本结果的波动。
比如所检测的样本来源不同的实验环境、不同检测技术、试剂批次变化、不同实验员手法的差异,都会额外引入差异。
批次效应理论上在任何实验中都可能存在。高通量测序由于检测精度高,因此对批次效应更加敏感。
在这里插入图片描述
批次效应带来的基因表达变化,对任何定量研究都有影响。

• 10x单细胞研究的额外影响:导致本该聚类在一起的细胞因为批次效应被分为不同的簇,影响了细胞亚群鉴定的准确性,以及下游的所有分析。

实验解决方法:

  1. 有条件,就尽可能一次收集所有样本,一次做完(但实际情况往往不允许)
    2)采用速冻法保存样本,等收集足够以后,用提核法一次完成文库制备(样本难收集,周期长的项目,可以考虑这种方法)。
    生信解决方法:
MNN矫正

在这里插入图片描述

CCA矫正

在这里插入图片描述
实操矫正代码

#####代码例子:
## We then identify anchors using the FindIntegrationAnchors function,
which takes a list of Seurat objects as input, and use these anchors to integrate 
the two datasets together with IntegrateData.
#(1)# 建立MNN关系对
immune.anchors <- FindIntegrationAnchors(object.list = 
ifnb.list, anchor.features = features)
# (2)对表达量进行矫正
immune.combined <- IntegrateData(anchorset = immune.anchors)
#(3)后续的聚类分群、差异分析等与正常流程类似
harmony矫正

首先,Harmony应用主成分分析,将转录组表达谱嵌入到低维空间中,然后应用迭代过程去除数据集特有的影响。
(A)Harmony概率性地将细胞分配给cluster,从而使每个cluster内数据
集的多样性最大化。
(B)Harmony计算每个cluster的所有数据集的全局中心,以及特定数据
集的中心。
(C)在每个cluster中,Harmony基于中心为每个数据集计算校正因子。
(D)最后,Harmony使用基于C的特定于细胞的因子校正每个细胞。由
于Harmony使用软聚类,因此可以通过多个因子的线性组合对其A中进行
的软聚类分配进行线性校正,来修正每个单细胞。
重复步骤A到D,直到收敛为止。聚类分配和数据集之间的依赖性随着每一
轮的减少而减小。
在这里插入图片描述
harmony算法优势

  1. 整合数据的同时对稀有细胞的敏感性依然很好;
  2. 省内存,运行速度快,适用于大样本;
  3. 适合于更复杂的单细胞分析实验设计,可以比较来自不同供体,组织和技术平台的细胞。
细胞过滤

细胞过滤是在开始正式分析前,进一步过滤得到可信的细胞用于
后续分析。
在这里插入图片描述

人为设定的一些经验标准,例如:
单细胞中鉴定到的gene数量
单细胞中UMI的总数。UMI总数过高则可能是由于实验过程中两个细胞进入了一个微滴,这类数据需要去除。
单细胞中UMI的线粒体基因表达量比例(小于10%,数值不固定)

亚群聚类

算法步骤:
(1)表达量均一化:A = log( 1 + ( UMIA ÷ UMITotal ) × 10000 )
其中,A:目标细胞中目标基因A的表达量;UMIA: 目标细胞中A基因的UMI数量;UMITotal:目标细胞中所有UMI数量的总和;log:以e为底数的自然对数。本质上就是消除不同细胞数据量的不同(因此,cell ranger的深度均一化是非必须的)。
(2)PCA分析,挑选主成分(降维),涉及:高可变基因筛选;
(3)聚类分群,涉及:分群标准的确定;

高变基因筛选与PCA分析

筛选方差较高的可变基因(例如top 2000)
PCA分析,并挑选显著(P<0.01)的主成分(PC),用于下一步的分析(降维)
本质:下一步用主成分进行亚群划分。因此主成分可以降低细胞间噪音信号的干扰。
在这里插入图片描述

聚类

Seurat软件使用基于图论的聚类算法对细胞进行聚类和分群。主要
包括以下步骤:
(1)构建细胞间的聚类关系:利用显著的主成分构建基于欧式距离的
KNN聚类关系图;
(2)优化细胞间聚类关系距离的权重值:利用Jaccard相似性优化细胞间
距离的权重值;
(3)聚类和分群:使用Louvain 算法进行细胞群聚类优化。

可视化

在群体单细胞领域,tSNE是更适合PCA的算法
在这里插入图片描述

  1. 在这里t-SNE(t-Distributed Stochastic Neighbor Embedding) 只是用于将细胞排在一个二维空间里(散点图) 。然后将每个点根据亚群来源(上一步分析得到的),涂上不同的颜色。
  2. 为什么用tSNE?
    答: tSNE是非线性的方法。简单理解就是:相似的细胞保持紧密聚类的同时,差异越大的细胞,在图中的距离越被夸大。这样不同亚群的细胞,群间的隔离更彻底,更清晰。还有类似的算法UMAP。
  3. 为什么图中相同颜色相同的细胞(属于一类)好像来源不同的簇?
    答:因为分类定义来自上一页的步骤,而这里t-SNE聚类是另一种方法。不同方法,最后呈现出的细胞的相似性并不相同。

亚群鉴定(关键,耗时最久)

10X 单细胞转录组数据解读中,最耗费精力也是最关键的一部分是亚群的定义。

可以参考的鉴定步骤:
(1)从已有研究基础,样本特性等预估样本中潜在有哪些细胞亚群;
(2)搜寻对应细胞亚群的已知基因标记;
(3)基于已知基因标记进行亚群分类识别;
(4)对于依然无法定义的细胞亚群,也可以直接从亚群上调表达的基因去推测其潜在类型。或者,可以考虑,从其他其他物种/组织文献的相关报道中推测

标记基因

标记基因:又称marker基因,就是每个亚群特征或上调表达的基因(默认是和其他所有亚群比较)
一般来源文献或数据库

数据库物种细胞类型数据信息
Mouse cell Atlas小鼠所有基因 细胞亚群
Cell Marker人、小鼠所有基因 细胞类型 文献出处
Cancer SEA癌细胞基因 癌症类型 功能解析
PanglaoDB人、小鼠所有基因 细胞类型 统计学分析
haemosphere人、小鼠体液细胞基因 细胞类型 表达量数
亚群定义

在这里插入图片描述
综合考虑各种逻辑,定义有争议的亚群(可以被定义到两类细胞的亚群)。
例如,本次范例红细胞相关的4个亚群,根据标记分群存在重叠。
(a) 满足IE2标记(表达的基因与不表达基因)要求的亚群只有C3,则先确定C3属于IE2;
(b) IE1只能选择C5;
© IE3(2,4)与ME(0,2,8)存在C2的重叠。无论从基因表达量还是聚类图中的距离,都很难判定,C2应该属于IE3还是ME,可能需要更多标记来判定。考虑到C2主要存在pre样本,暂时把他定义为成熟的细胞,所以分类为:
IE3:C4
ME:C0,C2,C8
在这里插入图片描述

特征分析
频率统计

细胞亚群频率(占总体百分比)的变化,也是常见的讨论内容。
这也是 10X genomics 设置生物学重复的主要意义之一。
在这里插入图片描述

亚群特征表达基因

在这里插入图片描述
亚群特征基因的展示,经常使用小提琴图和映射图方式。
在这里插入图片描述
在这里插入图片描述

个性数据挖掘

瞬时状态

每个细胞都有独立的分子特征,了解细胞“此时此刻”所具有的特征是异质性研究的基础。
细胞功能(GSEA、GSVA)
拷贝数变异(CNV)

细胞演化

拟时分析
RNA速率分析
细胞周期分析

细胞关联

WGCNA分析
转录因子分析
细胞通讯分析

小结

关于标记基因
(1)特异标记基因,不等于特有表达。在其他类型的组织中也存在表达,只是相对丰度更低。甚至在其他细胞类型中,也存在较高表达。
(2)某个群体里的标记基因,并不意味着这个群体每个细胞都表达,而是平均表达量和表达所占的细胞比重较高。

有可能10X的结果与之前文献的报道不完全一致(文献解析中也会再次提及)。可能原因包括:由于样本状态(药物处理)、特定的组织时期、个体差异、检测技术不同等因素。

对单细胞有研究的小伙伴可以加微信bbplayer2021,进入交流群,一起交流研究。

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值