一、蛋白质分子
1、FASTA 格式:
- 存储内容: FASTA 格式主要用于存储蛋白质和核酸序列的基本信息。每条序列由一个标题行和一个序列行组成。标题行以大于号(>)开头,后面跟着序列的标识符或描述信息。序列行包含了蛋白质或核酸的碱基序列。例如:
>P12345 My Protein
MAFSAEDVLKEYDRRRRMEALLLSLYYPNDRKLLDYDDDVTVGSPDSNKY
- 结构简单: FASTA 格式非常简单,易于理解和解析。它不包含任何结构化的蛋白质信息,仅仅是一种
文本格式
。 - 适用范围: FASTA 格式适用于存储大量的蛋白质或核酸序列,例如在基因组学和序列比对等领域。
2、PDB 格式:
- 存储内容: PDB 格式用于存储蛋白质的三维结构信息。它包含了蛋白质的原子坐标、结构拓扑、结合物信息等。PDB 文件通常由多个记录组成,包括原子坐标记录(ATOM)、连接记录(CONECT)、晶体学信息记录(CRYST1)等。
- 结构复杂: PDB 格式是一种非常复杂的结构化格式,需要一定的了解才能正确解析和处理。它包含了大量的结构信息,能够准确地描述蛋白质的三维构象。
- 适用范围: PDB 格式适用于存储蛋白质的三维结构数据,主要用于存储和共享
生物大分子的结构信息
,广泛应用于蛋白质结构预测、药物设计、生物信息学等领域。
PDB 格式示例:
HEADER HYDROLASE 20-JAN-99 1A6G
TITLE CRYSTAL STRUCTURE OF HUMAN RENIN IN COMPLEX WITH A PEPTIDOMIMETIC
TITLE 2 INHIBITOR AT 2.0 A RESOLUTION
COMPND MOL_ID: 1;
COMPND 2 MOLECULE: RENIN;
COMPND 3 CHAIN: A;
...
ATOM 1 N ASP A 1 34.180 31.280 11.560 1.00 22.58 N
ATOM 2 CA ASP A 1 33.500 31.790 12.760 1.00 22.54 C
ATOM 3 C ASP A 1 34.420 31.310 13.920 1.00 22.80 C
…
3、MOL2 格式:
- 存储内容: MOL2 格式是一种用于存储分子结构信息的文件格式,通常包含分子的原子、键、电荷、立体信息等。
- 结构复杂性: MOL2 格式相对较为简单,主要用于描述小分子或小分子与蛋白质/配体的相互作用。
- 适用范围: MOL2 格式常用于计算化学软件中,如药物设计、分子对接等领域。
MOL2 格式示例:
@<TRIPOS>MOLECULE
MOL
12 11 0 0 0
SMALL
GASTEIGER
@<TRIPOS>ATOM
1 C1 2.5470 1.1880 0.0000 C.3 1 MOL 0.0000
2 C2 1.5470 1.1880 0.0000 C.3 1 MOL 0.0000
3 C3 1.0470 1.1880 0.0000 C.3 1 MOL 0.0000
...
@<TRIPOS>BOND
1 1 2 1
2 2 3 1
3 3 4 1
...
2、化学分子
1、SMILES(Simplified Molecular Input Line Entry System)格式:
- 表示方式: SMILES 格式:是一种线性表示法,用一串字符表示分子结构,包括原子、键和环的信息。
- 可读性: 相对简洁,适合用于快速查看和理解分子结构。
- 广泛应用: 被广泛用于化学信息系统、药物设计和计算化学领域。
SMILES格式举例:
2、PubChem 格式
- 表示方式: 是一种更加复杂的格式,以
XML
或JSON 格式
存储,包含了丰富的分子信息,如分子结构、性质、标识符等。 - 可读性: 包含了更多的信息,适合用于存储和交换分子数据,但相对复杂,不太适合直接阅读。
- 广泛应用: 主要用于 PubChem 数据库中存储和检索化合物信息。
PubChem格式举例:
CID: 702
分子式: C2H6O
分子质量: 46.07 g/mol
SMILES: CCO
InChI: InChI=1S/C2H6O/c1-2-3/h3H,1-2H2
InChIKey: LFJITWHZSUQNPS-UHFFFAOYSA-N
生物活性数据: 可能会列出乙醇的各种生物活性信息,如其对特定受体的作用、在药物筛选中的结果等。
3、InChI格式:
-
简介: InChI,全称International Chemical Identifier,即国际化学标识符,是一种用于唯一地表示分子结构的文本字符串。它旨在提供一种与人类语言相似的、非专有的、可机读的格式,用于描述和检索化学结构。
-
组成: InChI由多个部分组成,包括连接表、氢原子信息、电荷和立体化学等。这种格式不仅可以表示分子的原子连接关系,还可以表示分子的
立体结构和电荷状态
。 -
复杂性: 与SMILES相比,InChI更注重唯一性和准确性;具体来说,InChI格式字符串可能会相当复杂,因为它需要包含分子的所有详细信息。而SMILES格式则可能更简洁,因为它主要关注分子骨架的连接关系
水(H₂O)
InChI:InChI=1S/H2O/h1H2,1H
在这个例子中,InChI字符串“InChI=1S/H2O/h1H2,1H”表示了水分子的结构。这个字符串由几个部分组成:
- InChI=1S:这是InChI字符串的开头部分,标识了这是一个标准的InChI字符串。
- /H2O/:这部分表示了分子的分子式,即H₂O。
- /h1H2,1H:这部分描述了分子的氢原子连接情况。在这个例子中,它表示有两个氢原子(H2)连接到一个氧原子(O)上,并且这个氧原子也连接到了另一个氢原子(1H)上。