PDB数据库
PDB(Protein Data Bank)是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。其内容包括生物大分子的原子坐标、参考文献、1级和2级结构信息,也包括了晶体结构因数以及NMR实验数据等。
PDB数据库由全球多个组织协作管理,包括美国的RCSB PDB、日本的PDBj以及欧洲的PDBe,三者共同维护并推动数据库的更新和扩展。PDB数据库的检索方式有两种:基本检索方法和高级检索方法。
基本检索方法:
• 按PDB ID检索:如果已知目标结构的PDB ID,可以直接在搜索框中输入ID进行检索。
• 按关键字检索:可以输入蛋白质名称、序列、功能、来源物种等关键字进行搜索。
• 按作者检索:可以根据发表论文的作者姓名进行检索,查找其提交的结构数据。
高级检索方法:
• 按分辨率检索:可以设置分辨率范围,筛选出符合要求的结构数据。
• 按实验方法检索:根据实验方法(如X射线晶体学、核磁共振、冷冻电子显微镜等)进行筛选。
• 按结构类型检索:可以选择单独的蛋白质、蛋白质-核酸复合物、多聚体等结构类型进行检索。
这里我们以HIV蛋白酶-抑制剂复合物体系(PDB ID: 1HPV)为例,介绍RCSB PDB。
✓ 在检索框中输入相应体系的ID即可查看其详细信息
点击 "Download Files" 即可下载pdb文件用于计算模拟;
蛋白信息:
PDB DOI:PDB中每个条目的唯一标识符;
Classification:分子结构所属的类别(水解酶);
Organism(s):分子来源的生物物种(人源);
Expression System:生产分子的实验表达系统(大肠杆菌);
Mutation(s):分子相较于其天然序列发生的突变信息(无突变);
Deposited:研究人员将数据提交到PDB数据库的日期;
Released:数据在PDB数据库中向公众开放的日期;
Deposition Author(s):将结构数据提交到PDB的研究人员。
实验结构解析信息:
Method:结构解析方式(X射线衍射)
Resolution:分辨率,表示解析结构的精度,通常以埃(Å)为单位。分辨率越小,结构越清晰。在分子对接中,为了提高结果的可靠性和准确性,一般选解析度好的结构(<2.5 Å)作为受体进行研究;
R-value Work:反映解析结构模型与实验数据的拟合程度(基于训练数据),值越小拟合越好;
R-value Observed:类似于R-value Work,基于全部数据进行拟合。
✓ 生物大分子信息,包括分子名称,链信息,序列长度,组织来源,以及变异的一些详细信息,空间构象图等
✓ 小分子配体信息,包括小分子的化学名称,链信息(一般小分子就一个链),分子式,结构简式,2D结构,3D interaction提供了与蛋白的相互作用,并且提供了可下载的其他文件格式
需要注意的是,有些结构会解析出多个小分子,有可能是溶剂分子,离子,以及重要的金属离子。
此时需要根据文献调研确定所需研究对象,有些金属离子对于蛋白配体的结合、活性会有非常大的影响,不可忽视,需要进行相应的处理。
✓ 配体实验数据,重点关注的是结合自由能的实验数据,不同课题组可能得到的结果不一样,具体采取哪个实验值根据调研参考的文章为准。
✓ 晶体解析信息,包括结构解析方式、分辨率等信息。
✓ 晶体结构的版本信息。可以看到该结构在1995,2008,2011,2024均更新过实验数据,因为随着实验条件和实验手段的进步,解析的实验数据也是需要更新的。
小结
PDB数据库是生物大分子结构数据的重要资源,为生物学和药物学研究提供了宝贵的三维结构数据。通过不断升级和标准化,PDB为科学家们揭示生物分子的结构与功能关系、开发创新药物以及推进基础科学研究提供了重要支持。