此博客是对我之前草稿博客:
https://blog.csdn.net/weixin_62528784/article/details/144159378?spm=1001.2014.3001.5501
的补充,
能快速回答下面问题,检验自己检索PDB数据库的能力
PDB蛋白质结构数据库(Protein Data Bank,PDB)(http://www.rcsb.org/)是美国Brookhaven国家实验室于1971年创建的,由结构生物信息学研究合作组织(Research Collaboratory for Structural Bioinformatics,RCSB)维护。PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。
三级结构数据有PDB格式和cif格式,在RCSB数据库中有的大的结构只有cif格式的文件,所以一般采用下载cif格式。在
https://www.rcsb.org/docs/programmatic-access/file-download-services
可以批量用脚本批量下载PDB数据和cif数据,也可以同步rsync数据同步到本地,保持实时更新。
对于刚使用PDB的初学者,了解PDB数据格式在菜单栏learn-》Guide to PDB data下有初步的介绍,要了解PDB格式和cif格式的文件详细信息在下面网址
http://www.wwpdb.org/documentation/file-format
中可以下载和查询帮助文档。
PDB格式文件可以下载对应的pdf帮助文档,cif则没有
cif格式的文件介绍在
uniprot是蛋白质信息汇总,其中PDB是存储晶体结构的数据库
==================》
首先需要搜索蛋白质:以CTCF为例
左侧栏:
根据左边的条件缩小范围,主要关注3点:
以6QNX为例,
https://www.rcsb.org/structure/6QNX
一,structure summary结构摘要:
右上角的数据下载链接:
其他的:
点开完整报告之后是:
1,下方是文献引用:关于该蛋白质晶体结构的原始文献出处:
2,左侧栏:
分子质量
异三聚体,3条链,且为A1B1C1各1条链
3,最下方:大分子各subunit亚基结构的分析
如果点击右下方的uniprot链接
紧接着的是对该蛋白的domain分布信息,类似与uniprot中的区域信息
同样可以找到chain B的亚基,对应B1,以及chain C的亚基
4,最后面就是实验数据收集的summary:晶体学方面的
以及版本信息:
二,structure结构
蛋白质结构的图形化界面
三,annotation注释
基本上就是结合其他数据库信息
1,domain区域注释:
2,蛋白家族注释:
3,GO基因本体论注释:类似于富集分析
还是分A1/B1/C1链
4,蛋白家族分类:
5,疾病关联:表型分析
同样是分A1B1C1各链
四,实验细节:
数据来源:x射线衍射
至于这里晶体结构上游处理的软件,可以参考我之前的博客:
https://blog.csdn.net/weixin_62528784/article/details/144698291?spm=1001.2014.3001.5501
五,蛋白质aa序列浏览器:
同样结合多种信息
六,对应编码gene的基因组浏览器:
就是基因组浏览器,类似于ucsc以及WashU
七,最后一个条目:发布版本信息
八,结合其他参考:
参考: