Pfam数据库包含众多蛋白质家族,各家族由序列比对和隐马尔可夫模型表示。此外,Pfam还定义了“宗族”,即基于序列、结构相似性聚集的Pfam条目群组。虽然数据主要基于UniProt参考蛋白质组,但仍可通过输入特定蛋白质来检索相关信息。Pfam的全比对数据可从多个数据库获取,这些数据库提供不同的接入选项和冗余级别。今天我们一起来学习一个基于Pfam数据库的强大蛋白质家族搜索工具——PfamScan。
PfamScan主要关注蛋白质序列中的结构域和家族信息,它使用隐马尔可夫模型(HMM)来对大量蛋白质序列进行批量分析,识别其中的保守结构域。PfamScan在蛋白质功能研究方面应用广泛。比如在一些研究未知功能的蛋白质时,如果能够通过PfamScan确定其结构域,就可以根据结构域相关的已知信息去推测这个未知蛋白质可能的功能。在微生物研究中,很多微生物蛋白的功能解析也离不开这个工具。
功能特点
1. 全面性:Pfam数据库包含了大量的蛋白质家族信息,涵盖了从细菌到人类的各种生物体,目前收录了超过20,000个蛋白质家族。
2. 标准化:Pfam数据库采用统一的分类标准,将具有相似结构或功能的蛋白质序列归为一个家族,这种标准化的分类方法有助于研究人员对蛋白质家族进行比较和分析。
3. 可扩展性:Pfam数据库是一个动态更新的数据库,每年都有大量的新数据被添加到数据库中,Pfam数据库还支持用户自定义蛋白质家族,以满足特