文献阅读:一种基于艾伦脑图谱的空间表达数据可视化、空间异质性描绘和单细胞配准工具

::: block-1

文献介绍

文献题目: AllenDigger,一种基于艾伦脑图谱的空间表达数据可视化、空间异质性描绘和单细胞配准的工具
研究团队: 王晓群(北京师范大学)
发表时间: 2023-03-16
发表期刊: The Journal of Physical Chemistry A
影响因子: 2.9(2023年)
DOI: 10.1021/acs.jpca.3c00145
:::

摘要

空间转录组学可用于捕获细胞空间组织,并促进对不同生物背景的新见解,包括发育生物学、癌症和神经科学。然而,其广泛应用仍因其技术挑战和不成熟的数据分析方法而受到阻碍。Allen Brain Atlas (ABA) 通过原位杂交图像数据为各个发育阶段的整个小鼠大脑的空间基因表达提供了重要的来源。据我们所知,为访问空间表达数据而开发的门户对生物学家来说并不是很有用。在这里,作者开发了一个工具包来收集和预处理来自 ABA 的表达数据,并允许更友好的查询来可视化感兴趣基因的空间分布,表征大脑的空间异质性,并注册从单细胞转录组数据到精细解剖学的细胞。通过机器学习方法高精度地识别大脑区域。AllenDigger 将在精确的空间基因表达查询方面对社区非常有帮助,并添加额外的空间信息,以经济有效的方式进一步解释 scRNA-seq 数据。

前言

组织结构和细胞空间组织对于维持和调节生物过程至关重要,并且不断受到细胞邻域和外部微环境的干扰。因此,解码空间背景对于充分理解生物复杂性至关重要。空间转录组学的快速发展促进了转录模式的全面表征,同时保留了组织空间组织,并已应用于研究空间基因表达异质性、细胞微环境和细胞间相互作用。例如,在发育生物学中,空间转录组学被用来构建空间基因表达景观,识别解剖学特异性表达基因并揭示细胞分化和迁移的空间背景。在神经病学中,空间转录组学已被用来描述功能失调的大脑的分子特征和细胞组织。阿尔茨海默病是一种进行性神经退行性疾病,会导致记忆力、思维能力和身体功能丧失。Chen et al. 通过分析阿尔茨海默病模型的空间转录组学,揭示了失调的基因和细胞网络。在病理学中,空间转录组学使我们能够精确探索肿瘤免疫环境以及肿瘤与免疫细胞之间的相互作用,这些相互作用负责细胞扩张和肿瘤进展。然而,对于不熟悉该领域的实验室来说,空间剖析技术和相关的数据分析方法在技术上仍然具有挑战性,而且成本高昂,需要付出更多努力来使其更加普遍、公众可访问和负担得起。

尽管当前的空间转录组学技术已经实现了基因表达捕获的细胞和亚细胞分辨率,但通过原位杂交 (ISH) 构建的基因表达图谱 Allen Brain Atlas 仍然是获取近 2100 全脑的全基因组空间基因表达谱数据的重要来源。在 Allen Brain Atlas 中,收集了小鼠大脑每个发育阶段的 ISH 结果,并将其转化为 3D 基因表达模型,并标注了其权威的大脑结构定义。在这个 3D 模型中,大脑结构被分为称为体素 (∼80-100 μm) 的网格立方体,其中每个体素都有其基因表达丰度、不同分辨率下的大脑区域注释等。因此,该模型可用于提供注释良好的空间基因表达景观,使得跨大脑区域的基因表达谱的探索成为可能。

为了方便访问 Allen Brain Atlas,Allen 研究所推出了 Brain Explorer 门户网站 (https://portal.brain-map.org/), 供社区查询和探索数据。该 Web 应用程序提供 2D 和 3D 空间中表达数据的交互式可视化,但不支持用于下游分析以进一步探索数据的高级模块。最近,Fleck et al. 构建了 Voxhunt,将类器官的 scRNA-seq 数据映射到 Allen Brain Atlas 中的全脑基因表达数据,从而使研究人员能够访问基因表达的空间分布,并通过计算相关系数将单个单细胞映射到体素上。尽管 Voxhunt 提供了将 scRNA-seq 的基因表达数据与 ABA 的空间基因表达数据整合的可能性,但其中采用的方法基于相关性分析,该分析仅捕获线性依赖性,并且可能受到用于测量细胞和体素之间相似性的基因的影响。因此,在不了解空间信息的情况下进行主观基因选择可能会导致分析出现偏差。

鉴于 ABA 提供了整个大脑的精确和严格的空间表达分析,以及神经科学领域绝大多数单细胞 RNA-seq 数据的公开可用性,作者在这里开发了一种名为 AllenDigger 的工具,它能够检索和可视化 ISH 以更具交互性和复杂性的方式获取图像数据,计算整个大脑的差异表达基因,并将细胞注册到大脑空间。在此工具中,作者实现了一个图自动编码器模型,该模型能够在对体素进行聚类时捕获空间信息,并且作者发现,与朴素自动编码器模型或使用纯表达数据的 Louvain 聚类结果相比,使用 ground truth 大脑区域标记可以获得更一致的聚类结果。更重要的是,该工具可用于通过实施基于机器学习的方法,将 scRNA-seq 数据中的单个细胞分配到具有高解剖分辨率的空间大脑区域(例如,皮质层、海马亚区域、下丘脑核),这可以为研究人员在分析 scRNA-seq 数据时添加空间信息,而无需额外成本。

研究方法

数据收集和格式化

Allen Brian Atlas 通过 API (http://help.brain-map.org/display/api/Allen%2BBrain%2BAtlas%2BAPI) 提供对其已发布数据和参考图谱的访问。为了方便使用和存储,小鼠大脑被分成 3D 网格立方体并转换为 3D 矩阵,其中每个体素与具有相同坐标的矩阵元素相匹配。分辨率从 80 到 200 μm 不等,具体取决于小鼠不同发育阶段的大脑大小。对于每个发展阶段,构建表达矩阵和结构参考矩阵。各个表达矩阵中的元素代表特定基因在特定体素处的表达能量,并计算为源自 ISH 图像的表达强度和表达密度的乘积。在参考矩阵中,每个元素代表一个精确解剖结构的 ID。通过重塑和连接每个发育阶段的所有 3D 基因表达阵列,基因阵列的 2D 体素被转换为 AnnData 格式,其中 x、y 和 z 坐标附加到匹配的体素(AnnData 是生物信息领域流行的数据格式,广泛用于多组学数据矩阵,例如转录组学和表观基因组学)。同时,参考矩阵被转换为分配给相应体素的多级注释结构的列表。所有这些注释和坐标都封装在 AnnData 对象的 obs 模块中。

输入图数据的构建

输入的图(graph)数据由邻接矩阵 A \mathbf{A} A 和特征矩阵 X \mathbf{X} X 组成。邻接矩阵是通过对点的空间坐标应用 K 近邻算法来构建的,并计算给定点与其 K 个邻居之间固定半径 r 内的欧氏距离。邻接矩阵 A \mathbf{A} A 用 1 和 0 填充。元素为 1 表示相应的一对由边连接的节点,而元素为 0 表示节点之间没有连接。此外,通过将对角线元素设置为 1 来考虑自循环。特征矩阵 X \mathbf{X} X 是通过从 Allen Brain Atlas 中提取每个点的基因表达信息而得到的。

图自编码器

图自编码器(graph autoencoder)是一种基于图数据进行学习的无监督方法。对于给定的无向图 G = ( V , E ) G = (V, E) G=(V,E),其中 N = ∣ V ∣ N = |V|

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ 生信宝库

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值