第九章 本体论、分子通路鉴定
9.1 本体论和基因本体论
- 之前讲的很多都是算法以及网上的一些工具和软件,所有的工具都是用来分析生物学数据的,所以很多工具都要基于已有的训练集才能被开发出来。而这些数据是海量并且指数增长的,所以它们的存储是一个非常重要的生物信息学问题。
- 比如说同一个基因WNT1, 又有很多其他的叫法,如,WNT-1; INT1; WINGLESS-TYPE MMTV INTEGRATION SITE FAMILY, MEMBERY 1; WINGLESS-TYPE MMTV INTEGRATION SITE FAMILY; 果蝇中同源基因 wingless, wg... 问题:如何告诉电脑这是同一个基因?
- 在不同的物种中, 经常有相同的基因被取了不同的名字。在早期的生物学研究中,因为大家都专注于某一个物种研究,影响不大。但是因为上世纪90年代末,有多种物种的全基因被测出来了,包括比较早的酵母的基因组、线虫,到果蝇和人、小鼠基因组的草图也逐渐被绘制出来。
- 大家发现很多的基因在不同物种之间是高度地保守的,而这些保守的基因在不同的物种里会被叫做不同的名字,这给全基因组注释带来了很多麻烦。(⊙o⊙)…那是不是建一个字典可以解决呢?
- We need to define it for the computer: hierarchical,common,controlled vocabulary
- Entity: name, synonyms, acronyms, properties
- Relationship: e.g., is-a
- 上述的vocabulary如果做得非常规范的时候,就可以被称为是一个ontology,本体论。
- ontology:A specification of a conceptualization, a set of concepts within a domain, defined by a shared vocabulary to denote the types and properties of the concepts as well as the relationships between the concepts.
- 本体论:针对你所研究的这个领域,定义一系列的概念,这些概念有一个共同的词库。这个词库定义了两件事情,一是领域中所有entity的名称、类型和特征,同时要定义概念之间的关系。
- What does an ontology enable?
- Communication: to be able to communicate unambiguously
- Computation: to be able to represent knowledge in a computable form
- Discovery of Patterns: to be able traverse different hierarchies, ontology的结构非常重要,它可以让我们用电脑自动地找到一些超越单个基因之上的大的模式。
- Open Biomedical Ontologies(OBO):
- Gene Ontology
- Anatomical Entity Ontology
- Disease Ontology
- Sequence Ontology
- System Biology Ontology
- ......
- Gene Ontology (GO): The project began as a collaboration between three model organism genome databases: FlyBase, Saccharomyces(酵母) Genome Database (SGD0), and Mouse Genome Database(MGD) in 1998.
- GO defines a structured, common, controlled vocabulary to describe attributes of genes and gene products across organisms.
- Three categories:
- Molecular Function = elemental activity/task , 分子功能:基因产物它所形式的任务。
- Biological Process = biological goal or objective, 所参与的生物过程
- Cellular Component = location or complex,处的亚细胞的定位,聚合体等
- 有向,无环图。所有的边都是有方向的,很像设计模式中的实体图。。。
- How to store this graph in a computer?
- OBO file format, [Term] id, name, namespace(属于三大类中哪一类), def, synonym, is_a
- XML format,与html类似,go:term(开始和结尾符), go:accession, go:name, go:synonym, go:definition, go:isa, go:dexref(若这个基因在别的数据库中存在,此处存放链接)
- GO relationship:
- is a : B is a subtype of A , 定义从属关系,有家族的关系
- part of : B is a part of A , 定义subunit和unit的关系。
- regulates : B regulates A, 分为 positive regulates 和 negative regulates
- GO一共定义了近4万的概念,涉及到2000多个物种,注释了57万多基因,定义的关系包括7万5千多条。
- AmiGO工具可以辅助浏览GO。
9.2 KEGG分子通路数据库
- What is a biological pathway? A series of actions among molecules in a cell that leads to a certain product or a change in a cell. 细胞中的分子的一系列的行为最终生成某一个成品,或者对细胞有某种改变。
- Main types of biological pathways:
- Metabolic pathways, 代谢通路,有原材料,一步一步加工变成一个产品
- Gene regulation pathways, 基因调控通路,就像工厂的product manger一样,根据外界的情况来调节哪些基因多表达一些或者少表达一些。
- Signal transduction pathways, 信号转导通路,就像sales manager一样把市场的信息反馈到生产里,把信息一步步从product manager传到supply manager,再传到工人中。
- Pathway databases
- KEGG PATHWAY, 一个hierarchical的结构化的格式,包括Metabolism, Genetic Information Processing, Environmental Inforamtion Processing, Cellular Processes, Organismal Systems, Human Diseases and so on. 最早是做代谢通路,所以代谢通路也是KEGG中最为完善的一类。
- BioCarta
- BioCyc
- Protein ANalysis THrough Evolutionary Relationships (PANTHER)
- Pathway Interaction Database (PID)
- Reactome
- KEGG中比较重要的几类关系:蛋白与蛋白质之间的相互作用;基因表达之间的关系通过一个中间产物的表达的调控,包括表达和抑制,包括还有直接的表达调控和间接的表达调控;酶和酶之间作用通过连续的反应的两个步骤来定义。
- KEGG Markup Language (KGML) format
- KGML文件和XML文件非常相似。
- KEGG中有一个被忽视但很重要的概念:KEGG Orthology (KO)
- KO看起来和KEGG pathway有点像,但主要是来描述相关的基因的类似ontology的结构,它和Gene Ontology一样是一个四级的结构,不一样的是,它是四级的平的一个结构。
9.3 GO注释
- Three types of GO annotations:
- Annotation through manually-reviewed experimental evidence, 大量的人读文献,把文献里的研究的基因分子功能录入到数据库,感觉这个工作,怎么校对呢?
- Annotation through manually-reviewed computational analysis evidence, 利用BLAST类似的方法把没有实验证据的基因通过序列相似性连接到与它相似的已知的基因。
- Annotation by electronically-generated computational analysis evidence
- Annotation through manually-reviewed experimental evidence:
- IDA Inferred from Direct Assay
- IPI Inferred from Physical Interaction
- IMP Inferred from Mutant Phenotype
- IGI Inferred from Genetic Interaction
- IEP Inferred from Expression Pattern
- EXP Inferred from Experiment
- Annotation through manually-reviewed computational evidence:
- ISO Inferred from Sequence Orthology
- ISA Inferred from Sequence Alignment
- ISM Inferred from Sequence Model
- ISS Inferred from Sequence or Structural Similarity
- IGC Inferred from Genomic Context
- IBA Inferred from Biological aspect of Ancestor
- IBD Inferred from Biological aspect of Descendant
- RCA Inferred from Reviewed Computational Analysis
- IKR Inferred from Key Residues
- IRD Inferred from Rapid Divergence
- Annotation by completely electronically generated computational analysis without manual review
- IEA Inferred from Electronic Annotation
- Misc other manual annotations
- TAS Traceable Author Statement, 没有明确的实验证据支持,但是作者在discussion中提及过,若有cite paper
- NAS Non‐traceable Author Statement, 若无cite paper
- IC Inferred by Curator, 搞不清楚是什么证据
- ND No biological Data available,没有data
- NR