【2017年第2期】深度学习在化学信息学中的应用(上)

徐优俊, 裴剑锋

北京大学前沿交叉学科研究院定量生物学中心,北京 100871 

摘要:深度学习在计算机视觉、语音识别和自然语言处理三大领域中取得了巨大的成功,带动了人工智能的快速发展。将深度学习的关键技术应用于化学信息学,能够加快实现化学信息处理的人工智能化。化合物结构与性质的定量关系研究是化学信息学的主要任务之一,着重介绍各类深度学习框架(深层神经网络、卷积神经网络、循环或递归神经网络)应用于化合物定量构效关系模型的研究进展,并针对深度学习在化学信息学中的应用进行了展望。

关键词:深度学习;人工智能;定量构效关系;化学信息学

中图分类号:TP301     文献标识码:A

Deep learning for chemoinformatics

XU Youjun, PEI Jianfeng

Center for Quantitative Biology, Academy for Advanced Interdisciplinary Studies, Peking University, Beijing 100871, China

Abstract: Deep learning have been successfully used in computer vision,speech recognition and natural language processing,leading to the rapid development of artificial intelligence.The key technology of deep learning was also applied to chemoinformatics,speeding up the implementation of artificial intelligence in chemistry.As developing quantitative structure-activity relationship model is one of major tasks for chemoinformatics,the application of deep learning technology in QSAR research was focused.How three kinds of deep learning frameworks,namely,deep neural network,convolution neural network,and recurrent or recursive neural network were applied in QSAR was discussed.A perspective on the future impact of deep learning on chemoinformatics was given.

Key words: deep learning, artificial intelligence, quantitative structure-activity relationship, chemoinformatics


论文引用格式:徐优俊, 裴剑锋. 深度学习在化学信息学中的应用[J], 大数据, 2017, 3(2): 45-66.

XU Y J, PEI J F. Deep learning for chemoinformatics[J]. Big Data Research, 2017, 3(2): 45-66.


1  引言

人工智能(artificial intelligence, AI)主要用人工的方法在机器(计算机)上实现智能化,或称机器智能。自2006年以来,机器学习领域取得了突破性的进展。深度学习(deep learning)算法的提出让人们相信AI离人们并没有那么遥远。自AlphaGo战胜李世石的那一刻起,深度学习技术被认为是目前最有可能实现AI的技术之一。深度学习是机器学习算法的一种。在最近的10年中,深度学习技术在语音识别[1]、计算机视觉[2]和自然语言处理[3]中取得了巨大的成功。同时,该技术凭借其强大的能力也逐渐地被应用到化学信息学的很多领域[4],如计算机辅助药物设计、材料性质的预测等。在2012年的Merck公司组织的药靶化合物活性预测比赛中,利用深度学习技术构建的预测模型不仅战胜了所有的竞争者,而且在准确率方面大约超出Merck公司内部评价系统15%。随后,利用深度学习开发的多任务模型在2014年美国国立卫生研究院(National Institutes of Health,NIH)组织的Tox21毒性预测挑战赛中也获得了令人欣喜的成绩。在活性和毒性的预测方面的成功,让研究人员产生了疑问,深度学习算法比起传统机器学习算法,优势在哪?首先对于传统的机器学习算法来说,有3个特点:特征是人为设定的,在特征提取或者构建过程中,不同的转换和近似被应用到输入特征上;简单的模板匹配,只考虑如何利用输入特征集合产生较为满意的结果,并不注重对问题的表征;模型的表现力随着参数的增多而逐渐变强。而深度学习通过多层人工神经网络(artificial neural network,ANN)将输入特征进行不同层次水平的表征,实现“分层表征”的概念,进而通过多种训练技巧优化模型的表现。其中每一层的表层也有可能被应用到其他新的问题中。模型的表现力随着层数的增多而呈指数增长[5]。深度学习凭借这样的特性能够直接在输入原始数据的基础上进行特征训练,最后得出具有竞争力的预测模型。简而言之,深度学习算法不仅能够构建预测模型,而且具有潜在的自动学习特征的能力。

化学信息学(chemoinformatics)是一门应用信息学方法解决化学问题的学科。其主要任务之一是基于化合物二维(2D)或者三维(3D)结构发展能够预测化合物潜在性质的模型,该模型基于的基本假设是“相似的分子具有相似的性质”。这一假设也被称为构效关系(structureacitivity relationship,SAR),用来建立化合物结构与性质之间的相关性。定量构效关系(quantitative structure-acitivity relationship,QSAR)是在构效关系的基础上,结合物理化学中常用的经验方程的数学方法出现的,其理论历史可以追溯到1868年提出的Crum-Brown方程,该方程认为化合物的生理Φ可以用化学结构C的函数表示,但是并未建立明确的函数模型。最早可以实现的定量构效关系方法是由美国波蒙拿学院的Hansch在1964年提出的Hansch方程 。其中,lg P是疏水参数,ES是立体参数,σ是电性参数,a、b、ρ、d是方程系数。Hansch模型揭开了经典QSAR研究的篇章,成为QSAR发展历史中的里程碑。其后QSAR的研究被广泛用于预测化合物的药代动力学性质,如吸收、分布、代谢、排泄和毒性。构建QSAR模型一般需要3个主要步骤:生成已知化合物测量性质的训练集;编码关于化合物的化学结构的信息;建立数学模型,从编码的化学结构信息预测测量的性质。高通量筛选(high throughput screening, HTS)是收集训练数据的理想方法。针对感兴趣的分子性质,可以设计高通量的芯片来完成几百到数千种化合物测试,这些被测量的性质可以是细胞或生物化学的表型。目前已经有很多将化合物编码成数字向量的方法,这些方法主要针对分子的各种物化性质和拓扑性质进行描述。各种机器学习方法被用来构建数学模型,从而进行化合物预测。这些方法包括线性回归模型、贝叶斯神经网络、随机森林(random forest,RF)、偏最小二乘和支持向量机(support vector machine,SVM)等。在面对一些复杂的分子性质预测时,传统的机器学习算法仍有所不足,而深度学习技术凭借其突出的能力为化学信息学研究增添了一道新的曙光。

当前大多数的深度学习算法是基于人工神经网络发展而来的,在这里着重介绍具有深层网络架构的深度学习算法在QSAR研究中的应用进展情况。首先介绍深度学习的基础背景以及近些年的发展状况;然后介绍各类深度学习框架在QSAR中的应用实例,对目前存在的传统机器学习模型与深度学习模型的预测表现进行比较与分析;再将所有提到的方法进行汇总和比较分析;最后对深度学习在QSAR中的应用进行总结与展望,对化学信息的人工智能化进行展望。

2 深度学习

2.1 深度学习的背景和面临的障碍

深度学习的概念源于人工神经网络。人工神经网络是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。ANN是一种运算模型,由大量的节点(或称神经元)相互连接构成,如图1(a)所示。每个节点代表一种特定的输出函数,称为激活函数(activation function),每两个节点之间的连线代表权重(weight)。为了最小化预测误差的目标,ANN模型中的权值都将随着不断的训练而被调整。该网络由3部分构成:输入层(L1)、隐层(L2)和输出层(L3)。3维的输入信息通过各层神经元的非线性组合映射到1维的输出值。其中偏置项是指输入值为1的神经元。深层神经网络(deep neural network,DNN)架构示意如图1

  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值