第10周
本体论与基因本体论
- 背景是由于以前不同生物学家对于一个物种或者一段基因得命名不同,还有许多简称。这对于计算机来说是无法识别的。
- 所以,我们需要一个规范定义,也就是Ontology,本体论。
- 那么,本体论能给我们干什么呢?
- 在当下,有了许多本体论的数据集。
- 其中分类的依据主要从以下三个方面
- 本体论文件格式有OBO file和XML file
- 定义的三种关系:
- 计算机可以依据以上三种关系定义进行推演:
kegg分子通路数据库
- 通路是啥
- 通路数据库有哪些
- 数据存储格式
GO注释
- 有三种类型的GO注释
- 其他的注释方法
分子通路鉴定
- 在你得到基因或蛋白质数据后,如何找到这些蛋白质属于哪个通路呢,如何找到最后价值的通路呢
- 找到通路有两种方法
- 这里采用了序列对应的方法,rank的意思是在blast后的结果中,必须要在前五个中至少一个是具有通路的。
- 另外,需要评估序列相似性的通路注释
- 那么在找到这些通路之后,这么知道哪些是最有价值的呢
- 可以通过以下统计,N是总的基因数目,M总的通路数目,n找到的基因数目,m找到的通路数目
- 引入p-value错误率
- KOBAS2.0现引进了多个数据库
药物成瘾共同分子通路的
- 具体可以查看ppt,有详细的步骤操作。
- 总的来说,本周学习了这些内容。
第11周
数据库资源简介
我们要学会使用一些工具,知道工具是解决什么问题,底层做了什么假设,参数是什么意思,准确度有多少,方法局限在哪里。
- 数据库分类
- NCBI EBI UCSC数据库
- Genbank 核苷酸序列数据库
- GEO 表达序列数据库
- SRA 新有待测序短序列数据库
NCBI数据库
- NCBI: http://www.ncbi.nlm.nih.gov/
- Genome http://www.ncbi.nlm.nih.gov/genome/
- Gene http://www.ncbi.nlm.nih.gov/gene/
- Refseq:核苷酸权威版本
- GeneCards :对人的基因注释更好的数据库
- SRA 新一代测序短序列数据库
- Taxonomy 至少有一个基因被测序过的物种建成物种分类树
- Pubmed 查文献数据库
- PMC 免费全文文献
- My Ncbi 设定关键词,邮件通知自己研究方向的最新进展
- Mesh 结构化词库
- blast
EBI
- EBI http://www.ebi.ac.uk/services
- 关键数据库:ensembl 基因的整合资源
- Ensemble 数据的类型
- 常用的UNIProtKB数据库,分为swiss-prot 和trembl。Swiss-prot是已校对的数据,trembl是未校对数据。
- IntAct 分子间相互作用数据库
- clustal Omega 多序列比对数据库
- InterProScan 输入一个序列,可以查找目前是否一直到的功能区域
UCSC Genome Browser
- Blat 蛋白或基因比对到自己本物种上
- In-Silico PCR 给一个要比对的基因组,一对primer就可以计算基因组上有哪些区域,把这对primer抓下来。
其他数据库
- PDB 蛋白质的三维结构
- 计算蛋白序列的保守性
- CNVnator 新一代测序技术鉴定拷贝数变异(类似于 bicseq)
- RFam 非编码RNA家族比对,新测的非编码RNA有什么功能
- 实用工具 多看原理 别坑了