Dependency Map(DepMap)数据库学习

DepMap简介
列举细胞生长和药物敏感性所需的所有基因
  1. 在DepMap中,利用大规模功能基因组学分析来识别细胞生长所必需的基因。迄今为止,已在超过1000种癌细胞模型中完成了RNA干扰和CRISPR基因敲除筛选。

  2. 与此同时,采用多重分析方法对数百种细胞模型进行药物敏感性分析。在完成药物重定位化合物库的筛选后,持续对具有研究价值的新化合物进行表征,以创建迄今规模最大的肿瘤学研究参考数据集。

  3. 该工作的核心是开发新型分析工具,以更精准地捕捉这些遗传依赖性和药物敏感性。通过DEMETER、DEMETER2、CERES和CHRONOS等方法,改进了对癌症依赖性及药物敏感性的建模。

  4. 目前,正在扩展研究范围,纳入新的筛选模式、新型扰动方式和非传统模型,以期更全面地揭示基因依赖性及药物敏感性。

构建癌症“弱点”图谱
  1. 正在整合多维度数据集,以揭示遗传依赖性、药物敏感性与细胞特征之间的关联。通过将基因依赖性与药物敏感性和癌症的遗传学、分子特征相关联,能够发现新的癌症敏感性靶点,识别治疗应答生物标志物,并深入解析药物作用机制。

  2. 为进一步提升预测模型的解释力,持续开发更多工具来优化并解读预测模型,探索新的数据整合方法,同时构建更高效的应用程序,以支持治疗靶点与生物标志物的发现。

    简单来说DepMap数据库已经探索了改变不同基因之后不同细胞模型的功能表型(增殖活力)的影响,而这个数据我们可以在官网进行在线探索,也可以下载之后进行自行分析。

Tools中的Data Explorer版块
1.Overview界面

Dependent cell lines模块

Gene effect: 较低的分数意味着某个基因在特定细胞模型中更可能是有作用的(这里的有作用是指敲减这个基因之后细胞的活力减弱,负的代表抑制,正的代表增殖),笔者选择了EGFR这个基因,可以看到敲减这个基因之后大部分的gene effect都是小于0的,中位的gene effect是-1,这也说明了敲减/敲除EGFR后大多数细胞模型的活力减弱。但关于gene effect的阈值其实是可以自定。

Enriched Lineages模块

敲除/敲减EGFR之后不同细胞模型表型改变的情况,这里可以看到很多上皮来源的癌细胞的活力会下降。

Expression&CN模块

EGFR这个基因在不同细胞模型中的RNA和拷贝数分布情况,其中RNA有两个波峰一个在0附近,一个在5左右。拷贝数主要在1左右。

Mutations模块

突变情况,展示了EGFR在细胞模型中存在的不同突变情况,其中missense variant比例是最高的。

Predictability模块

密度曲线呈现了方差最高的前6000个基因的预测准确度分布,其中垂直标记线标示目标基因的预测准确度值,是敲减/敲除EGFR后能成功抑制细胞活性的概率。每个基因的依赖性概率是使用随机森林集成模型预测的,其中每个RF模型是基于CCLE2019数据集的不同组合以及特征选择方法进行拟合的。每个模型的预测准确性衡量标准是预测的依赖性值与观察值之间的皮尔逊相关系数。

下边还列举了一些特征基因,这些特征基因按照能够预测模型(这里应该是指能够预测敲减了EGFR之后细胞活力情况)的重要性进行了排序,这里面的feature最高的是C1orf116,但其Corr是阴性。

Top Co-dependencies模块

这个模块可以看到敲减/敲除了EGFR后其他基因的相关性变化,普通转录组数据做相关性分析只能展示表达量的相关性并不能说明互相之间一定有作用,而这里的相关性可以说明敲减之后潜在同向变化的基因是哪些,换句话说是从细胞功能角度出发的相关性,这种相关性就更有可能说明两者之间存在潜在的相互作用。

Compounds Targeting EGFR模块

2.Perturbation界面

可以看到大部分癌种中的细胞模型在敲减了EGFR之后活力都是减弱的,这里还标出了突变的情况。

  1. Hotspot:指在TCGA和/或COSMIC数据库中被列为热点的突变,且不属于沉默突变(橙色)。

  2. Damaging:指发生在起始密码子或剪接位点的突变,以及导致移码、提前终止密码子或新发框架外起始密码子的突变(红色)。

  3. Other non-conserving:指错义突变、帧内插入缺失(in-frame indels)及终止密码子中的突变。

  4. Other conserving:指发生在非编码区域的突变。

3.Characterization界面

展示了不同细胞系中表达量情况

4.Predictability界面

展示了更详细的Predictability模块信息

Downloads板块
1.overview界面

这个界面简单的介绍了数据的来源,数量和构成等信息。

2.Current Release界面

目前数据已经更新到了24Q4版本,主要内容包括:细胞模型和模型的条件信息,CRISPR筛选数据,药物筛选数据,拷贝数变异数据,基因突变数据,基因表达量数据和基因融合数据。

3.Custom Downloads界面

这个界面中可以自定义选择下载的数据,当然一般是不用的。

4.All Data界面

一般在这个界面中下载数据进行后续分析。本次DepMap数据版本(24Q4)包含新的细胞模型及来自全基因组/外显子测序(拷贝数与突变)、RNA测序(表达与融合)以及全基因组CRISPR敲除筛选的数据。同时包含更新的元数据文件及映射文件,分别用于描述细胞模型信息与数据关联关系。

重要文件1:ScreenGeneEffect.csv

该数据包含了1401种细胞模型和18346个基因的数据,同时回顾一下geneEffect,敲减/敲除某个基因之后该值若小于0则抑制增殖活力,如果大于0则促进增殖活力,数值越大相对应的生物学效应越强。因此这个数据集十分重要,如果自己有心仪的基因可以通过这个数据集进行尝试。

重要文件2:CRISPRGeneDependency.csv

该数据包含了1178种细胞模型和17917个基因的Dependency数据,同时回顾一下GeneDependency,是敲减/敲除某个基因之后影响细胞增殖活力的准确性概率。毕竟我们可以想一下假设某个基因的geneEffect效果特别好,但是准确性很低的话,那是不是研究也存在很大的不确定性呢?

重要文件3: OmicsExpressionProteinCodingGenesTPMLogp1BatchCorrected.csv

该数据包含了1673种细胞模型和19139个基因的表达量数据,而且是批次矫正后的。

重要文件4: OmicsSomaticMutations.csv

这里包含了很多突变相关的信息,详细注释内容可见:https://storage.googleapis.com/shared-portal-files/Tools/24Q4_Mutation_Pipeline_Documentation.pdf

重要文件5:OmicsCNGene.csv 和 OmicsAbsoluteCNGene.csv

前者包含了1929种细胞模型和38591个基因的拷贝数数据。后者包含了1607种细胞和36701个基因的绝对拷贝数数据

重要文件6:Model.csv

这个文件就包含了很多细胞模型的临床/特征信息,比如细胞系名称,疾病,性别,是否转移等

获得了这些数据之后就能按照一些简单的代码提取数据匹配绘图啦~

参考资料:
  1. DepMap: https://depmap.org/portal/

  2. Nat Rev Cancer. 2025 Jan;25(1):59-73.

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多相关内容可关注公众号:生信方舟

- END -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值