使用迁移学习预测未被研究组织中的抗癌药物协同作用
论文题目 | Anti-cancer Drug Synergy Prediction in Understudied Tissues using Transfer Learning |
---|---|
论文出自 | bioRxiv preprint,2020.02 |
一、研究背景?
现在面临的关键的挑战是:体外药物反应在不同的癌症类型之间有很大的差异,其中一些组织(如骨骼和前列腺)的研究比其他组织少。
研究目标:开发一种药物协同预测模型,以克服数据匮乏的问题。
开发了一种基于深度神经网络的药物协同预测模型,以整合多模态输入,并利用从数据丰富的组织到数据贫乏的组织的转移学习。此协同作用预测模型可用于对有待研究的组织中的协同药物组合进行排序,从而帮助确定未来体外实验的优先级。
二、模型框架?
- 预测模型由药物编码器(图 1a)、细胞系编码器(图 1b)和合并层(图 1c)组成,以端到端的方式进行最终预测。
使用估计的药物反应,可以对预期具有协同作用的细胞系中的药物组合进行排名。
(a)药品编码器。它学习药物的嵌入表征。输入是药物ID、macs指纹、规范SMILES和目标基因。
(b)细胞系编码器。它学习细胞株的嵌入表示。输入是细胞系ID、组织、癌症类型和基因表达。
©融合药物编码器和细胞系编码器。灵敏度是促进协同预测的辅助输出。
(a)将模型参数从数据丰富的组织转移到数据贫乏的组织,如骨骼和前列腺
(b)对数据丰富的组织和数据贫乏的组织进行训练/测试分割。来自不同组织的一些细胞系有时共享药物(例如,1437种用于骨骼的药物和127种用于前列腺的药物)。
三、细节部分?
-
本文目标是预测未观察到的药物及其组合在给定细胞系中是否具有敏感性和协同作用,并提供研究人员可以优先进行实验的组合列表。
-
药物编码器: 每种药物的特征是{药物 ID、MACCS 指纹、典型 SMILES、靶基因}。
药物 ID 的 One-hot 向量表示为相同大小的嵌入。 MACCS 指纹的二进制指示符用作原始输入。 目标基因的二进制向量通过线性变换表示为一半大小的嵌入。 由于 SMILES 的长度可变,使用了 Transformer 编码器(一种将序列转换为表示的自然语言处理模型)。 SMILES 中的每个符号首先表示为大小为(#SMILES 长度 * #unique 符号)的 one-hot 向量,其中 #unique 符号为 48 最大 SMILES 长度为 288。符号的 one-hot 向量然后表示为嵌入。
这个嵌入序列被输入到一个单独的 Transformer 编码器中,该编码器由多头注意力层和具有重复残差连接的前馈层组成。 一旦导出了所有的嵌入表示,它们就会被连接成一个,并通过 Relu 激活和 dropout 馈送到两个前馈层。 -
细胞系编码器: 每个细胞系的特征是{细胞系 ID、组织、癌症类型、基因表达}。
细胞系 ID、组织和癌症类型的 One-hot 向量分别表示为相同大小的嵌入。 每个细胞系的基因表达表示为标准化的 FPKM 值,这些值被馈入具有 Relu 激活和丢失的前馈层。 将所有四个嵌入连接成一个,并将它们馈送到两个具有 Relu 激活和 dropout 的前馈层。
四、实验结果?
-
第一个实验是评估用数据丰富的组织训练和测试的模型的准确性。灵敏度达到了{0.95 AUC, 1.0 NDCG, 115 MSE},协同作用达到了{0.89 AUC, 0.84 NDCG, 178 MSE}。
结论-》通过比较ID、ID+F和ID+F+G之间的精度,添加多模态特征可以提高精度。
-
第二个实验是对未充分研究的组织进行实验。分别将模型参数从数据丰富的组织转移到骨和前列腺。比较了有和没有迁移模型参数的精度。发现迁移学习在大多数情况下提高了骨骼和前列腺的准确性(表2)。在骨骼中达到了0.94 AUC的敏感度。对于协同作用,在迁移学习之后,从ID+F+G模型获得了0.83 AUC,但在没有迁移学习的情况下,其准确性也具有可比性。在前列腺组织中,在迁移学习后,使用ID+F+G模型获得了0.96 AUC的敏感性和0.86 AUC的协同作用。
五、思考?
本文的主要贡献是解决了在研究不足但关键的组织上的药物反应预测。
本文的模型是一个端到端的药物协同预测模型,它可以学习**药物(根据过去的药物历史、分子结构和靶基因)和细胞系(根据过去的细胞系历史、组织、癌症类型和基线基因表达)之间的相互作用。基于不同组织具有相同的基因表达,因此以相似的方式响应药物,从数据丰富的组织到缺乏数据的组织的迁移学习,使协同预测模型适用于缺乏数据的组织。