![](https://img-blog.csdnimg.cn/direct/b981dd121d6d4ca382b33d39dfda8f34.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
生信学习:单细胞和空间组
文章平均质量分 93
整理了一些单细胞和空间组方面的生信工具教程
TigerZ 生信宝库
分享生物信息学、神经生物学方面的知识
展开
-
CellChat v2 教程 1:使用 CellChat 推理和分析细胞间通信
在权重为计算的通信概率的加权有向网络中,出度(outdegree)计算为来自一个细胞组的传出信号的通信概率之和,入度(in-degree)计算为去到一个细胞组的传入信号的通信概率之和,可用于分别识别信号网络的主要细胞发送者和接收者。值得注意的是,对于与 scRNA-seq 中测量的基因直接相关的分子,CellChat v2 通过这些分子的关键介质或酶来估算配体和受体的表达,以便通过非蛋白质介导的潜在通讯。因此,层次结构图提供了一种信息丰富且直观的方式来可视化感兴趣的细胞群之间的自分泌和旁分泌信号通信。原创 2024-04-01 08:41:50 · 2327 阅读 · 0 评论 -
AnnData 教程 1:开始使用 anndata
例如,在 scRNA-seq 数据中,每行对应于具有一个 barcode 的细胞,每列对应于具有 gene id 的基因。此外,对于每个细胞和每个基因,我们可能有额外的 metadata,如(1)每个细胞的供体信息,或(2)每个基因的替代基因符号。最后,我们可能有不同形式的原始核心数据,可能一种是 normalized 的,另一种不是。AnnData 已成为 Python 中单细胞分析的标准,这是有充分理由的——它使用简单,并通过其基于 key 的存储促进了更多可重复的分析。我们传递的初始数据可以使用。原创 2023-10-03 21:58:50 · 899 阅读 · 0 评论 -
Tangram 系列教程汇总
用于将 single-cell(or single-nucleus)基因表达数据映射到空间基因表达数据。单细胞数据集和空间数据集应该从相同的解剖区域/组织类型收集,最好是从生物复制中收集,并且需要共享一组基因。如果单细胞具有比空间数据更高的质量(或更多基因),这可以扩展基因通量,或纠正丢失。为了实现更快的训练并消耗更少的内存,Tangram 映射可以在 cell cluster level 完成。此外,它将相交的基因取子集为一组训练基因由。该结构可用于将单细胞数据中的基因表达投影到空间,这是通过。原创 2023-10-03 20:02:18 · 214 阅读 · 0 评论 -
Tangram Tutorial 2:配合 squidy 使用 Tangram
对于具有相当稀疏性的基因,映射的基因表达与空间数据中的基因表达非常相似。毫不奇怪,低分预测的基因代表空间数据中非常稀疏的基因,这表明 Tangram 预测正确地表达了这些基因。请注意,上面观察到的曲线是 Tangram 映射的典型曲线:该曲线下的面积是我们用来评估映射的最可靠的度量。有时,我们还使用整个转录组,或使用不同的训练基因组执行不同的映射,以查看结果变化有多大。在第二张图中,每个点都是一个训练基因,我们可以观察每个基因的训练得分(y 轴)和 scRNA-seq 数据(x 轴)中的稀疏性。原创 2023-09-21 09:01:08 · 181 阅读 · 0 评论 -
Tangram Tutorial 1:映射小鼠皮层 MOp 的 snRNAseq 数据到 Slide-seq2 数据
对于具有相当稀疏性的基因,映射的基因表达与空间数据中的基因表达非常相似。趋势是基因越稀疏,得分越高:这种情况通常会发生,因为非常稀疏的基因更容易映射,因为通过在正确的位置放置一些 "jackpot cells" 来匹配它们的模式。这是因为即使后面的基因模式定位正确,它们的表达值也没有很好的相关性(例如,在 Ctgf 中,“亮黄点”位于第 6b 层的不同部分)。这通常意味着(1)我们在训练基因中没有为 VLMC 细胞使用良好的标记基因(2)当前的标记基因在空间数据中非常稀疏,因此它们不包含良好的映射信号。原创 2023-09-20 08:52:31 · 113 阅读 · 0 评论 -
squidpy 教程 4:分析 Merfish 数据
出于本教程的目的,我们来计算 Moran’s I 分数。重要的是要考虑是应该对单个切片的 3D 空间坐标还是 2D 坐标执行分析。使用空间图的函数已经可以支持 3D 坐标,但重要的是要考虑 z-stack 坐标与 x、y 坐标的单位度量相同。本着自己学习、分享他人的态度,分享官方文档的中文教程。它代表了如何在 Squidpy 中使用 3D 空间数据的一个有趣的例子。使用 Squidpy,我们可以研究基因表达的空间变异性。如果应在单个切片上执行相同的分析,则建议将感兴趣的样本复制到新的。原创 2023-10-11 09:39:22 · 227 阅读 · 0 评论 -
squidpy 教程 3:使用 Napari 进行交互式可视化
请注意,通过选择并单击注释,将在 Napari 中创建一个新图层,位于前一个图层的顶部(请参见 Napari GUI 的左侧)。学习一个软件最好的方法就是啃它的官方文档。最后,回想一下,Napari 查看器上出现(并且可以可视化)的所有内容都存储在 AnnData 对象中。这种交互式注释在癌症病理学背景下特别有用,病理学家经常根据形态信息对组织进行注释,并且分析人员可能希望在下游分析中将此注释与其他类型的特征(离散或连续)相关联。在这里,我们将裁剪 2 个感兴趣的区域(分配给相同的 Shapes 图层)。原创 2023-10-11 09:12:15 · 265 阅读 · 0 评论 -
squidpy 教程 2:ImageContainer 对象
学习一个软件最好的方法就是啃它的官方文档。本着自己学习、分享他人的态度,分享官方文档的中文教程。所有这些都允许您通过自定义处理和特征提取功能,以便轻松地使用 Squidpy 的外部包。默认情况下,选择唯一的 layer 和 channel 维度名称,您可以使用。ImageContainer 的主要目的是实现高效的图像处理、分割和特征提取。它可以具有不同的 channel 维度。中的 observations,以进行交互式可视化和特征提取。会跟踪数据集属性中的裁剪坐标。将关联的数据子集化为裁剪后的图像。原创 2023-10-09 15:41:23 · 185 阅读 · 0 评论 -
squidpy 教程 1:在 AnnData 和 Squidpy 中导入空间数据
这些是 10x Genomics Visium 的 Space Ranger 输出提供的 keys,因此是第一个被采用的 keys。在这种情况下,我们假设空间坐标与像素具有相同的比例,因此我们将该值设置为 1。为此,我们将使用模拟数据集,并通过示例展示您应该注意的重要细节,以便利用 AnnData-Scanpy-Squidpy 生态系统的全部功能。并不是绝对必要的,但会节省您大量的输入,因为它是 Squidpy 和 Scanpy 的默认值。正如你所看到的,空间坐标被缩小了,图像被“放大”了。原创 2023-10-08 15:05:20 · 661 阅读 · 0 评论 -
scanpy 教程 1:预处理和聚类 3k PBMCs
如果你想与那些只想将此文件用于可视化的人共享此文件,减少文件大小的一个简单方法是删除密集 scaled 和 corrected 的数据矩阵。注意,Leiden 聚类直接对细胞的邻域图进行聚类,我们在上一节中已经计算过了。您还可以考虑更强大的差异测试包,如 MAST、limma、DESeq2,对于python,还有最近的 diffxpy。通过运行主成分分析(PCA)来降低数据的维度,主成分分析揭示了变化的主轴并对数据进行去噪。本质区别在于,在这里,我们使用多变量近似,而传统的微分测试是单变量的。原创 2023-10-08 11:11:26 · 507 阅读 · 2 评论 -
Seurat Tutorial 9:加权最近邻分析
多模态的同时测量,称为多模态分析,代表了单细胞基因组学的一个令人兴奋的前沿领域,并且需要能够基于多种数据类型定义细胞状态的新计算方法。每种模态的信息内容不同,甚至在同一数据集中的细胞之间也是如此,这对多模态数据集的分析和整合来说是一个紧迫的挑战。差异比之前的分析更加微妙(您可以探索权重,权重比我们的 CITE-seq 示例中的分布更均匀),但我们发现 WNN 提供了最清晰的细胞状态分离。我们使用与上一个小标题中使用的相同的 WNN 方法,其中我们将整合多模态分析应用于 CITE-seq 数据集。原创 2023-11-05 09:52:10 · 218 阅读 · 0 评论 -
Seurat Tutorial 8:多模态参考映射
中,我们映射了一个包含正在发育和分化的中性粒细胞的 query 数据集,这些细胞未包含在我们的 reference 中。),并可视化预先计算的 UMAP。在 Seurat v4 中,我们大幅提高了集成任务(包括 reference mapping)的速度和内存要求,并且还包含将 query cells 投影到先前计算的 UMAP 可视化上的新功能。我们强调,如果用户尝试映射基础样本不是 PBMC 的数据集,或者包含 reference 中不存在的细胞类型,则计算“从头”可视化是解释其数据集的重要一步。原创 2023-10-04 16:45:10 · 209 阅读 · 0 评论 -
Seurat Tutorial 7:整合 scRNA-seq 和 scATAC-seq 数据
我们在下面展示了我们的共嵌入工作流程,并再次强调这是出于演示目的,特别是在这种特殊情况下,scRNA-seq profiles 和 scATAC-seq profiles 实际上是在同一细胞中测量的。在 scRNA-seq 到 scATAC-seq transfer 的情况下,我们使用通过在 ATAC-seq 数据上计算 LSI 学习到的低维空间来计算这些权重,因为这可以更好地捕获 ATAC-seq 数据的内部结构。我们分别加载 RNA 和 ATAC 数据,并假设这些数据是在单独的实验中测量的。原创 2023-09-19 16:25:12 · 534 阅读 · 0 评论 -
Seurat Tutorial 6:整合大型数据集的技巧
例如,当整合 10 个不同的数据集时,我们执行 45 种不同的成对比较。作为替代方案,我们在此介绍了将一个或多个数据集指定为综合分析的“reference”,其余指定为“query”数据集的可能性。当使用 reciprocal PCA 确定任意两个数据集之间的 anchors 时,我们将每个数据集投影到其他 PCA 空间中,并通过相同的相互邻域要求约束 anchors。接下来,选择下游整合的功能,并在列表中的每个对象上运行 PCA,这是运行替代 reciprocal PCA 工作流所必需的。原创 2023-09-03 09:13:07 · 87 阅读 · 0 评论 -
Seurat Tutorial 5:使用 reciprocal PCA (RPCA) 快速整合
当使用 RPCA 确定任意两个数据集之间的 anchors 时,我们将每个数据集投影到其他 PCA 空间中,并通过相同的相互邻域要求约束 anchors。因此,当实验条件或疾病状态引入非常强烈的表达变化时,或者当跨模式和物种整合数据集时,基于 CCA 的整合可以进行综合分析。下面,我们演示了使用 reciprocal PCA 来对齐在我们介绍上一节中介绍的数据集。基于 RPCA 的整合运行速度明显更快,并且还代表了一种更保守的方法,其中处于不同生物状态的细胞在整合后不太可能“对齐”。原创 2023-09-02 10:01:19 · 182 阅读 · 0 评论 -
Seurat Tutorial 4:映射和注释查询数据集
值得注意的是,这不需要矫正原始的 query data,因此如果有高质量的 reference,这可能是一种有效的策略。在本节,我们首先构建一个 integrated reference,然后演示如何利用这个 reference 来注释新的 query datasets。因为我们有来自完整 integrated 分析的原始标签注释,所以我们可以评估我们预测的细胞类型注释与完整参考的匹配程度。首先,我们将组合对象拆分为一个 list,每个数据集作为一个元素(这只是必要的,因为数据被捆绑在一起以便于分发)。原创 2023-09-02 09:49:00 · 139 阅读 · 0 评论 -
Seurat Tutorial 3:scRNA-seq 整合分析介绍
CD3D 和 GNLY 等基因是典型的细胞类型标记(for T cells and NK/CD8 T cells),它们几乎不受干扰素刺激的影响,并且在对照组和刺激组中显示出相似的基因表达模式。在这里,我们采用受刺激和对照的 naive T cells 和 CD14 monocyte 群的平均表达,并生成散点图,突出显示对干扰素刺激表现出显着反应的基因。学习一个软件最好的方法就是啃它的官方文档。我们可以探索每个 cluster 的这些标记基因,并使用它们将我们的 cluster 注释为特定的细胞类型。原创 2023-09-01 09:20:31 · 289 阅读 · 0 评论 -
Seurat Tutorial 2:使用 Seurat 分析 多模态数据
在这里,我们分析了 8,617 个脐带血单核细胞 (CBMCs) 的数据集,其中转录组测量与 11 种表面蛋白的丰度估计值配对,其水平通过 DNA-barcoded antibodies 进行量化。例如,我们演示了如何根据测量的细胞转录组对 CITE-seq 数据集进行聚类,并随后发现每个聚类中富集的细胞表面蛋白。本着自己学习、分享他人的态度,分享官方文档的中文教程。同时测量同一细胞的多种数据类型的能力,称为多模态分析(multimodal analysis),代表了单细胞基因组学的一个令人兴奋的新前沿。原创 2023-08-31 09:36:06 · 258 阅读 · 0 评论 -
Seurat Tutorial 1:常见分析工作流程,基于 PBMC 3K 数据集
这些算法的目标是学习数据的底层流形,以便将相似的细胞放在低维空间中。为了克服 scRNA-seq 数据的任何单一特征中广泛的技术噪音,Seurat 根据其 PCA 分数对细胞进行聚类,每个 PC 本质上代表一个“metafeature”,它结合了相关特征集的信息。简而言之,这些方法将细胞嵌入到图结构中——例如 K-nearest neighbor(KNN) graph,在具有相似特征表达模式的细胞之间绘制边,然后尝试将该图划分为高度互连的“quasi-cliques”或“communities”。原创 2023-08-30 10:51:44 · 526 阅读 · 0 评论