生信数据库

最新推荐文章于 2023-08-31 18:02:15 发布

ws6tg

最新推荐文章于 2023-08-31 18:02:15 发布

阅读量3.8k

点赞数 1

分类专栏：生物信息学文章标签：数据库

本文链接：https://blog.csdn.net/weixin_43872379/article/details/127401436

版权

生物信息学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

生信数据库

核酸数据库和蛋白质数据库又分为一级和二级。
一级数据库存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列，或者 X 射线衍射法等获得的蛋白质三维结构。蛋白质的一级数据库还可以再具体分为蛋白质序列数据库和蛋白质结构数据库。
二级数据库是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。比如从三大核酸数据库和基因组数据库中提取并加工出的果蝇和蠕虫数据库，再比如根据蛋白质三维结构数据库中的结构信息，分析统计出的蛋白质结构分类数据库 CATH 和 SCOP 等。

文献数据库

pubmed是拥有超过两百六十万生物医学文献的数据库。这些文献来源于 MEDLINE，也就是生物医学文献数据库、生命科学领域学术杂志以及在线的专业书籍。他们大部分提供全文链接。

核酸数据库

一级核酸数据库

美国的 Genbank 由美国国家生物技术信息中心 NCBI 开发并负责维护。NCBI 隶属于美国国立卫生研究院 NIH。欧洲核苷酸序列数据集 ENA 由欧洲分子生物学研究室 EMBL 开发并负责维护。亚洲的核酸数据库 DDBJ由位于日本静冈的日本国立遗传学研究所 NIG 开发并负责维护。
Genbank，EMBL 与 DDBJ共同构成国际核酸序列数据库合作联盟 INSDC。通过 INSDC，三大核酸数据库的信息每日相互交换，更新汇总。这使得他们几乎在任何时候都享有相同的数据。
Ensembl是由欧洲生物信息学研究所 EBI 和英国桑格研究院合作开发的。它收入了各种动物的基因组，特别是那些离我们人类近的脊椎动物的基因组。
微生物宏基因组数据库是非常有用的一级核酸数据库资源。说到微生物宏基因组学，不得不介绍的是美国基因组研究所 TIGR 和克莱格反特研究所 JCVI。美国基因组研究所致力于微生物基因组的研究，也有部分植物基因组项目。它是克莱格·凡特研究所的一部分。自1995 年成立之初的两个基因组，至今已拥有超过 700 个基因组，而且还将更多。TIGR 是NCBI 基因组资源的有力补充，因为它不仅拥有已完成测序的基因组，还有那些测序中的基因组信息。

二级核酸数据库

二级核酸数据库包括的内容非常多。其中 NCBI 下属的三个数据库经常会用到。他们是RefSeq 数据库，dbEST 数据库和 Gene 数据库。RefSeq 数据库，也叫参考序列数据库，是通过自动及人工精选出的非冗余数据库，包括基因组序列、转录序列和蛋白质序列。凡是叫ref 什么的数据库都是非冗余数据库，就是已经帮你把重复的内容去除掉了。dbEST 数据库，也就是表达序列标签数据库，存储的是不同物种的表达序列标签。Gene 数据库以基因为记录对象为用户提供基因序列注释和检索服务，收录了来自 5300 多个物种的 430 万条基因记录。
此外，非编码 RNA 数据库，提供非编码 RNA 的序列和功能信息。非编码 RNA 不编码蛋白质但在细胞中起调节作用。目前该数据库包含来源于 99 种细菌，古细菌和真核生物的3 万多条序列。microRNA 数据库主要存放已发表的 microRNA 序列和注释。这个数据库可以分析 microRNA 在基因组中的定位和挖掘 microRNA 序列间的关系。
关于核酸数据库就给大家介绍到这里。

蛋白数据库

一级蛋白质数据库
- Swiss-Prot 是一个人工注释的蛋白质序列数据库。它拥有注释可信度高，冗余度小的优点。它是由欧洲生物信息学研究所 EBI 与瑞士生物信息学研究所 SIB 共同管理的。
- TrEMBL 也是 EBI 和 SIB 共同管理的一个数据库，他与 Swiss-Prot 的区别是:TrEMBL 里的蛋白质序列注释是由计算机完成的，它包含了 EMBL 核酸序列数据库中为蛋白质编码的核酸序列的所有翻译产物。换言之，TrEMBL 是通过计算机，把核酸序列数据库里能编码蛋白的核酸序列都翻译成了蛋白质序列，然后把这些计算机翻译出来的蛋白质序列存入其中。可想而知，这样的数据库一定是可信度低而冗余度大的。好在 TrEMBL 把已经包含在 Swiss-Prot 数据库中的序列剔除掉了。也就是在 Swiss-Prot 里已经有人工注释的蛋白质序列在 TrEMBL 里就不再出现了。
- PIR 数据库是蛋白质信息资源数据库，他设在美国 Georgetown 大学医学中心。是一个支持基因组学，蛋白质组学和系统生物学研究的综合公共生物信息学资源。
2002 年，Swiss-Prot 和 TrEMBL 的数据库管理组与 PIR 的数据库管理组成立联合蛋白质数据库协作组，管理联合蛋白质序列数据库，也就是 UniProt 数据库。UniProt 数据库有三个层次:
- 第一层叫 UniParc，收录了所有 UniProt 数据库子库中的蛋白质序列，量大，粗糙。
- 第二层是 UniRef （UniProt Non-redundant Reference），他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。根据序列相似程度形成3个子库，即UniRef100、UniRef90和UniRef50；
- 第三层是 UniProtKB （UniProt Knowledgebase），他有详细注释并与其他数据库有链接，分为 UniProtKB 下的 Swiss-Prot 和 UniProtKB 下的 TrEMBL 数据库。关系稍有点复杂，但实际上我们最常用的就是 UniProtKB 下的 Swiss-Prot 数据库。(大多数情况，我们检索蛋白质序列信息，都是去的UniprotKB)
二级蛋白质数据库
- **Pfam 数据库( http://pfam.xfam.org/ )**是一个蛋白质结构域家族的集合，包括了一万六千多个蛋白质家族。蛋白质一般是由一个或多个功能区域组成，这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现，形成了蛋白质的多样性。识别出蛋白质中的结构域对于了解蛋白质的功能有重要意义。比如 Toll 样受体蛋白。人的免疫系统中有许多种Toll 样受体蛋白，所有这些种类的Toll 样受体蛋白都可以分成三个结构域，每个结构域行使不同的功能。胞外域用于识别不同的入侵物，跨膜区穿膜，胞内域用于胞内信号转导。另一个免疫蛋白 MyD88，存在于胞内。它与 Toll 样受体的功能不同，但它有一个和 Toll 样受体胞内域相同的结构域。这两个不同蛋白上的相同结构域可以相互结合以激活下游的信号传导。因此，如果我们能够探明一个未知功能的蛋白质上有哪些已知的结构域，那我们就大致可以推测出它的功能。
- SCOP 数据库与 CATH 类似，也属于蛋白质结构分类数据库，但 SCOP 的分类原则更多考虑蛋白质间的进化关系，而且分类主要依赖于人工验证。和 CATH 一样，SCOP 的结构分类也基于四个层次。第一层也叫 Class，也是基于二级结构成分分类。Class 之下是 Fold，主要考虑结构的空间几何关系。再往下是 Superfamily，基于远源的蛋白质进化关系分类。最后是 Family，基于近源的蛋白质进化关系分类。注意 SCOP 和 CATH 里面都有提到 Superfamily 这个词，但两者的含义并不相同。CATH 里 Superfamily 是指的从 C 到 A 到 T 再到 H 这样四层的一个精细结构分类。而 Scop 中，Superfamily 是结构分类的第三个层次的名称。目前， SCOP 已升级为 SCOP2( http://scop2.mrc-lmb.cam.ac.uk )。
- 根据结构域的空间特征可以对结构域进行分类。CATH 和 SCOP 是两个重要的蛋白质结构分类数据库。**CATH 数据库( http://www.cathdb.info/ )**由伦敦大学 1993 年创建。CATH 这个数据库的名字 C、A、T、H 是数据库中四种结构分类层次的首字母。也就是，所有蛋白质结构域在 CATH 中被首先分成 4 种 CLASS，这就是 C。四种 CLASS 分别是全α型，全β 型， α +β型，低二级结构型。每一个 Class 中的结构域又被具体分为不同的 architecture，也就是 A。A 这一层是按照螺旋和折叠所形成的超二级结构排列方式分类的。比如α +β这个 class 下的结构可以进一步分为桶状的，三明治状的，还有滚轴状等 Architecture。每种 Architecture 里的结构域，又可以根据二级结构的形状和二级结构间的联系更进一步分为不同的 topology，也就是 T。最后再通过序列比较以及结构比较确定同源性分类，划分出不同的 homologous superfamily，也就是 H。这样每个结构从粗到细，即从 A 到 H，会有四个层次的分类。注意结构分类是以结构域为单位进行的，而不是针对整个蛋白。所以 PDB 中的一个蛋白质结构可能对应 CATH 中多个结构域分类。CATH 在分类时既使用计算机程序，也进行人工检查。

专用数据库

KEGG，全称京都基因与基因组百科全书(http://www.genome.jp/kegg)。它是关于基因、蛋白质、生化反应以及通路的综合生物信息数据库。
人类孟德尔遗传,它是一个将遗传病分类并链接到相关人类基因组中的数据库。它的在线版本是人类孟德尔遗传在线 OMIM。OMIM 为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息。从 NCBI 的 OMIM 子库页面点击 Getting Started 进入数据库(http://www.ncbi.nlm.nih.gov/omim)，或者直接从 OMIM 主页进入(http://www.omim.org/)。

ws6tg

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
生信数据库

TIGR 是NCBI 基因组资源的有力补充，因为它不仅拥有已完成测序的基因组，还有那些测序中的基因组信息。2002 年，Swiss-Prot 和 TrEMBL 的数据库管理组与 PIR 的数据库管理组成立联合蛋白质数据库协作组，管理联合蛋白质序列数据库，也就是 UniProt 数据库。数据库，也叫参考序列数据库，是通过自动及人工精选出的非冗余数据库，包括基因组序列、转录序列和蛋白质序列。微生物宏基因组数据库是非常有用的一级核酸数据库资源。数据库，也就是表达序列标签数据库，存储的是不同物种的表达序列标签。
复制链接

扫一扫