基于人工智能的多肽药物分析的子问题——蛋白质的三级结构预测的第一周学习记录

2021SC@SDUSC


前言

  我们小组的题目是基于人工智能的多肽药物分析问题,在这个大的题目下,魏老师为我们几个同学分配了小的课题。我目前研究的方向是基于人工智能预测蛋白质的三级结构。下面我将从蛋白质结构的研究意义、当前研究现状、AlphaFold的介绍、未来发展、代码情况、未来学习计划、参考论文六个方面介绍我自己的小课题。


一、蛋白质结构的研究意义

  蛋白质是一切生命活动的基础,是生命活动的直接执行者,它参与生命的几乎所有过程。如遗传、发育、繁殖、激素调节和能量的代谢等等。揭示生物体内成千上万种蛋白质的具体功能机制等是蛋白质研究的核心内容,也是后基因组时代生命科学研究极富挑战的领域之一。
  为了从根本上理解这些功能,进而理解生命的各种现象,帮助人类减少疾病,让人类生活的获得更加健康,就必须先了解蛋白质的结构,因为蛋白质的不同结构会决定它会发挥不同的功能。
  在药物分析问题中,一方面蛋白质会作为受体出现。那么为了药物更好的与受体结合,所以要了解清楚受体蛋白的结构,便于药物与之更好的结合。这就好比可以将蛋白质结构可以看成是锁,那么我们的药物是钥匙。所以研究锁的形状很重要的。另一方面多肽只是短的蛋白质序列,所以在针对多肽药物分析时,探究蛋白质的结构是非常有必要的。再者探究病毒蛋白质结构有助于研发针对性药物。

二、当前研究现状

  曾经预测蛋白质结构的方法有很多,例如Multimeme 算法、Rosetta 算法等,但是随着AlphaFold的出现之一切都被颠覆了,AlphaFold成为了当今最火热的蛋白质结构预测方法。

三、AlphaFold的介绍

1、AlphaFold出现的意义

  许多年来,生物家们通过各种手段试图解析蛋白质的结构,例如X射线晶体衍射、冷冻电镜、核磁共振等,然而生物学家们采用的技术手段都多多少少有自己的局限性。比如蛋白质结构研究的热门方法,冷冻电镜,虽然这几年它的分辨率一直提升,但是它仍然要拍摄数以万计的照片,才能完成对蛋白质结构的三维重建,这个过程要耗费大量的时间和金钱成本。因为这些限制,所以科学家们花费几十年的时间才解析出了35%的人类蛋白质结构。
  为了加快蛋白质结构预测的速度,CASP这场蛋白质结构预测比赛诞生了。主办方通过比较参赛者提交的程序预测出的蛋白质结构和实验室测定出的蛋白质结构的相似性进行评分。在2018年,AlphaFold拿下了70多分,实现了里程碑式的飞跃。而2020年AlphaFold2惊人地拿下了92.4的成绩。在不久前,98.5%的人类蛋白质结构被AlphaFold2预测出来了,而且还做成了数据集,全部免费开放。在数据集中预测的所有氨基酸残基中,有58%达到可信水平,其中更有35.7%达到高置信度。而在这之前科学家们数十年的努力,只覆盖了人类蛋白质序列中17%的氨基酸残基。除了人类蛋白质组,数据集中还包括大肠杆菌、果蝇、小鼠等20个具有科研常用生物的蛋白质组数据,总计超过35万个蛋白质的结构。由于 DeepMind 公司与欧洲分子生物学实验室合作,于 2021 年 7 月 22 日在线发布了数十万个蛋白质模型,人类蛋白质组中包含高可信度三维信息的残基数量增加了一倍。

2、AlphaFold2的方法

  根据安芬森法则,我们能从蛋白质的氨基酸序列猜出这种蛋白质的结构长什么样子。但是一个典型的蛋白质分子包含了几百个氨基酸,而氨基酸在空间中的组合方式是不确定的,预测出的可能性太多了。
  其实AlphaFold2就是一种用于蛋白质结构预测的机器学习算法。AlphaFold2 采用的方法是将有关蛋白质结构的经验知识纳入深度学习算法。该算法还利用多序列比对形式的进化守恒信息。由此产生的蛋白质模型通常与实验确定的结构一样准确。
  它主要是通过预测蛋白质中每对氨基酸之间的距离分布,以及连接它们的化学键之间的角度,然后将所有氨基酸对的测量结果汇总成2D的距离直方图。然后让卷积神经网络对这些图片进行学习,从而构建出蛋白质的3D结构。但这是一种从局部开始进行预测的方式,很有可能会忽略蛋白质结构信息的长距离依赖性。而Attention的特点刚好可以弥补这一缺陷,它是一种模仿人类注意力的网络架构,可以同时聚焦多个细节部分。这样可以使得框架预测的结果更加全面、准确。
在这里插入图片描述

四、未来发展

  新算法将用于预测任何已测序生物的结构化蛋白质组。此类预测可能有助于特定科学项目的设计,它们也将加速药物发现并促进生物技术应用。在不久的将来,应该探索机器学习来预测蛋白质-核酸复合物的结构,这是 AlphaFold2 和 RoseTTAFold 的一个显着盲点。PDB 已经包含近 10,000 个蛋白质-核酸复合物条目,这些条目应该用于训练新算法。虽然预测蛋白质-DNA 复合物可能是可行的,但实验解决的蛋白质-RNA 复合物结构的数量仍然很少,因此训练集很小,这可能会影响此时的成功。还应开发新的机器学习工具来分析和预测蛋白质的构象变化,并解决多态组件和蛋白质纤维的结构。机器学习方法还应该能够更好地预测蛋白质功能并促进蛋白质工程和设计。

五、代码情况

AlphaFold2的开放源代码,
代码地址:
https://github.com/deepmind/alphafold
可以在下面这个地址尝试使用AlphaFold2预测蛋白质结构
https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb
后面是我会参考到的代码地址:
https://github.com/tensorflow/tensorflow
https://github.com/deepmind/sonnet
https: //github.com/google/jax/
https://github.com/deepmind/dm-haiku
https://github.com/soedinglab/hh-suite
http://eddylab.org/software/hmmer/
https://github.com/openmm/openmm
https://github.com/soedinglab/MMseqs2
https://github.com/refresh-bio/FAMSA
https://www.python.org/
https://github.com/numpy/numpy
https:// /www.scipy.org/
https://github.com/mwaskom/seaborn
https://github.com/matplotlib/matplotlib
https://github.com/bokeh/bokeh
https://github.com/pandas-dev/pandas
https: //github.com/has2k1/plotnine
https://github.com/statsmodels/statsmodels
https://research.google.com/colaboratory
https://zhanglab.dcmb.med.umich.edu/TM-align/
https://github.com/schrodinger/pymol-open-source
在这里插入图片描述

六、学习计划

  后面我会重点学习AlphaFold的原理和代码,因为涉及到很多生物的知识和神经网络的知识,所以还会再多了解一些。

七、参考论文

1.Cramer, P. AlphaFold2 and the future of structural biology. Nat Struct Mol Biol 28, 704–705 (2021)
文章地址:
https://www.nature.com/articles/s41594-021-00650-1
2.Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021)
文章地址:
https://www.nature.com/articles/s41586-021-03819-2

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值