在计算机中,蛋白质分子和化学分子的常见表示格式(生物信息学领域)

一、蛋白质分子

1、FASTA 格式:

  • 存储内容: FASTA 格式主要用于存储蛋白质和核酸序列的基本信息。每条序列由一个标题行和一个序列行组成。标题行以大于号(>)开头,后面跟着序列的标识符或描述信息。序列行包含了蛋白质或核酸的碱基序列。例如:
>P12345 My Protein
MAFSAEDVLKEYDRRRRMEALLLSLYYPNDRKLLDYDDDVTVGSPDSNKY
  • 结构简单: FASTA 格式非常简单,易于理解和解析。它不包含任何结构化的蛋白质信息,仅仅是一种文本格式
  • 适用范围: FASTA 格式适用于存储大量的蛋白质或核酸序列,例如在基因组学和序列比对等领域。

2、PDB 格式:

  • 存储内容: PDB 格式用于存储蛋白质的三维结构信息。它包含了蛋白质的原子坐标、结构拓扑、结合物信息等。PDB 文件通常由多个记录组成,包括原子坐标记录(ATOM)、连接记录(CONECT)、晶体学信息记录(CRYST1)等。
  • 结构复杂: PDB 格式是一种非常复杂的结构化格式,需要一定的了解才能正确解析和处理。它包含了大量的结构信息,能够准确地描述蛋白质的三维构象。
  • 适用范围: PDB 格式适用于存储蛋白质的三维结构数据,主要用于存储和共享生物大分子的结构信息,广泛应用于蛋白质结构预测、药物设计、生物信息学等领域。

PDB 格式示例:

HEADER    HYDROLASE                               20-JAN-99   1A6G              
TITLE     CRYSTAL STRUCTURE OF HUMAN RENIN IN COMPLEX WITH A PEPTIDOMIMETIC 
TITLE    2 INHIBITOR AT 2.0 A RESOLUTION                                        
COMPND    MOL_ID: 1;                                                            
COMPND   2 MOLECULE: RENIN;                                                     
COMPND   3 CHAIN: A;                                                            
...
ATOM      1  N   ASP A   1      34.180  31.280  11.560  1.00 22.58           N  
ATOM      2  CA  ASP A   1      33.500  31.790  12.760  1.00 22.54           C  
ATOM      3  C   ASP A   1      34.420  31.310  13.920  1.00 22.80           C  

3、MOL2 格式:

  • 存储内容: MOL2 格式是一种用于存储分子结构信息的文件格式,通常包含分子的原子、键、电荷、立体信息等。
  • 结构复杂性: MOL2 格式相对较为简单,主要用于描述小分子或小分子与蛋白质/配体的相互作用。
  • 适用范围: MOL2 格式常用于计算化学软件中,如药物设计、分子对接等领域。

MOL2 格式示例:

@<TRIPOS>MOLECULE
MOL
   12   11    0    0    0
SMALL
GASTEIGER
@<TRIPOS>ATOM
      1 C1         2.5470    1.1880    0.0000 C.3    1 MOL         0.0000
      2 C2         1.5470    1.1880    0.0000 C.3    1 MOL         0.0000
      3 C3         1.0470    1.1880    0.0000 C.3    1 MOL         0.0000
...
@<TRIPOS>BOND
1 1 2 1
2 2 3 1
3 3 4 1
...

2、化学分子

1、SMILES(Simplified Molecular Input Line Entry System)格式:

  • 表示方式: SMILES 格式:是一种线性表示法,用一串字符表示分子结构,包括原子、键和环的信息。
  • 可读性: 相对简洁,适合用于快速查看和理解分子结构。
  • 广泛应用: 被广泛用于化学信息系统、药物设计和计算化学领域。
    SMILES格式举例:
    在这里插入图片描述

2、PubChem 格式

  • 表示方式: 是一种更加复杂的格式,以 XMLJSON 格式存储,包含了丰富的分子信息,如分子结构、性质、标识符等。
  • 可读性: 包含了更多的信息,适合用于存储和交换分子数据,但相对复杂,不太适合直接阅读。
  • 广泛应用: 主要用于 PubChem 数据库中存储和检索化合物信息。

PubChem格式举例:

CID: 702  
分子式: C2H6O  
分子质量: 46.07 g/mol  
SMILES: CCO  
InChI: InChI=1S/C2H6O/c1-2-3/h3H,1-2H2  
InChIKey: LFJITWHZSUQNPS-UHFFFAOYSA-N  
生物活性数据: 可能会列出乙醇的各种生物活性信息,如其对特定受体的作用、在药物筛选中的结果等。

3、InChI格式:

  • 简介: InChI,全称International Chemical Identifier,即国际化学标识符,是一种用于唯一地表示分子结构的文本字符串。它旨在提供一种与人类语言相似的、非专有的、可机读的格式,用于描述和检索化学结构。

  • 组成: InChI由多个部分组成,包括连接表、氢原子信息、电荷和立体化学等。这种格式不仅可以表示分子的原子连接关系,还可以表示分子的立体结构和电荷状态

  • 复杂性: 与SMILES相比,InChI更注重唯一性和准确性;具体来说,InChI格式字符串可能会相当复杂,因为它需要包含分子的所有详细信息。而SMILES格式则可能更简洁,因为它主要关注分子骨架的连接关系

水(H₂O)
InChI:InChI=1S/H2O/h1H2,1H

在这个例子中,InChI字符串“InChI=1S/H2O/h1H2,1H”表示了水分子的结构。这个字符串由几个部分组成:
- InChI=1S:这是InChI字符串的开头部分,标识了这是一个标准的InChI字符串。
- /H2O/:这部分表示了分子的分子式,即H₂O。
- /h1H2,1H:这部分描述了分子的氢原子连接情况。在这个例子中,它表示有两个氢原子(H2)连接到一个氧原子(O)上,并且这个氧原子也连接到了另一个氢原子(1H)上。
  • 13
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值