蛋白质结构预测与分析

蛋白质是生命活动的主要承担者和体现者,一切生命活动都离不开蛋白质,了解蛋白质功能的基本方法之一是研究其三维结构。

蛋白质结构决定功能,此即蛋白质科学的首要法则。事实上,没有任何一种其他类型的生物大分子可能完全行使蛋白质分子经过数百万年进化所积累的所有生物学功能。因此,研究蛋白质的结构意义重大。

研究蛋白质结构,有助于了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质之间的相互作用,这无论是对于生物学,还是对于医学和药学,都是非常重要的。

对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释。

通过分析蛋白质的结构,确认功能单位或结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子及结构。

蛋白质结构主要通过X射线晶体学(X-ray crystallography)、核磁共振(nuclear magnetic resonance,NMR)和冷冻电镜(cryo-electron microscopy,cry-EM)等方法解析,虽然这些方法可以产生高分辨率和高质量的蛋白质结构,但是耗时、昂贵且不适用于所有蛋白质。随着生物信息学的发展,人工智能在生物学中的应用日益广泛,人们逐渐利用新技术进行蛋白质结构预测与分析并获得了一系列成果。

蛋白质结构层次主要分为四个层次,也就是一级结构、二级结构、三级结构、四级结构。一级结构是指多肽链的氨基酸残疾的排列顺序,一级结构是蛋白质结构层次体系的基础,它是决定更高层次结构的主要因素;二级结构是指多肽链主链原子借助氢键沿一维方向排列成具有周期性的结构构象,描述了局部区域的一般三维形式,这些区域与蛋白质的其余部分独立地组织成重复出现的结构片段,多肽链最主要的局部构象是α螺旋(α-helix)、β折叠(β-pleated sheet)、β转角(β-turn)、无规卷曲;超二级结构世界语蛋白质二级结构与三级结构之间的蛋白质结构层次,超二级结构是指有蛋白质分子中若干相邻的二级结构原件组合在一起,彼此相互作用,排列形成规则的、在空间上能够辨认的二级结构组合,在多种蛋白质中充当三级结构的构件(buliding block),其基本形式有αα、ββ、βαβ等。结构域是指在超二级结构上形成的三级结构的局部折叠区,它是相对独立的紧密球状实体,是蛋白质多肽链中具有特异结构和独立功能的区域,能自稳定,独立于其他区域折叠,其构成蛋白质三级结构的基本单元,通常由50~300个氨基酸残基组成。基序(motif)是结构域的亚单位,长度可以从几个氨基酸到几十个氨基酸,通常由1~3个二级结构单位组成。三级结构是指整条多肽链的三维结构,包括骨架和侧链在内的所有原子的空间排列,可以说是每个原子的3D空间坐标都包括。三级结构是在二级结构的基础上进一步盘绕、折叠通过氨基酸侧链之间的疏水相互作用、氢键的作用力形成并维持的。四级结构是指在亚基和亚基之间通过疏水作用等次级键结合成为的有序排列的特定的空间结构,仅适用于多亚基蛋白质,对多亚基蛋白质来说,亚基单独存在时没有生物学功能,只有完整的四级结构才具有生物学功能。

蛋白质结构分类是蛋白质研究的一个重要方向,是功能分类和功能进化研究的重要依据。蛋白质结构的数量迅速增加,这为蛋白质结构分类提供了新的更加丰富的数据基础。同时,蛋白质结构预测、蛋白质折叠及蛋白质工程研究,需要更加深入和系统的蛋白质结构分类知识。因此,不断发展出了一系列按层次体系对蛋白质结构进行分类的新方法、新程序,并将应用这些方法所获得的分类知识建成数据库,免费开放使用。以下介绍两个主要的蛋白质结构分类数据库——SCOP2和CATH

①SCOP2数据库

SCOP2数据库主要是根据蛋白质结构和氨基酸序列的相似性对蛋白质结构域进行手动分类。这种分类的动机是确定蛋白质之间的进化关系。具有相同形状但几乎没有序列或功能相似性的蛋白质被放置在不同的超家族中,并且被认为只有一个非常遥远的共同祖先。该数据库在搜集、整理、分析PDB数据库中已知的蛋白质三维结构的基础上,详细描述了已知结构的蛋白质在结构、进化事件中与功能类型3个方面的关系。SCOP2吧所有已知三维结构的蛋白质分为4个层次,最高层次为结构类型(class),每个结构类型又分为不同的折叠(fold),每个折叠再分为不同超家族(superfamily),最后是家族。不同的分类层次,反应不同程度的结构相似性。其实有点像分类树的感觉,把不同的蛋白质分类。

SCOP2数据库的第一个分类层次为家族,其依据为序列同一性程度,通常将序列同一性在30%以上的蛋白质归为同一家族,即它们之间有比较明确的进化关系。当然,在某些情况下也可以低于这一指标

如果序列相似性较低,但其结构和功能表明它们有共同的进化起源,则将其视为超家族

无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,则认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性住依赖于二级结构单元的排列方式或拓扑结构。

结构类型主要包括结构域比如α螺旋结构域这些

②CATH数据库

CATH数据库是一个免费的、公开可用的,提供关于蛋白质结构域进化关系的蛋白质结构分类数据库。CATH数据库将蛋白质分为4个层次:类型(class)、框架(architecture)、拓扑结构(topology)和同源性(homology)。

  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值