NCBI(National Center for Biotechnology Information)
美国国立生物技术信息中心是美国政府为了更好的处理大量出现的生物数据而于1988年建立的机构;由美国国立卫生研究中心(NIH)的美国国家医学图书馆(NLM)开发维护
NCBI的数据库归类
主要数据库
如GeneBank
衍生数据库
1、如NCBI RefSeq mRNA
2、机器处理数据,如UniGene
【扩展】RNA层面数据:表达标签序列(ESTs)
表达序列标签数据库(dbEST)是GenBank数据库的子库,它收录了一系列物种中的单次测序的cDNA序列数据和相关信息。一个EST是一个cDNA克隆的一部分DNA序列。所有cDNA克隆以及由此而来的所有EST数据都来源于特定RNA源,如人脑或大鼠的肝脏。RNA被转换成更稳定的cDNA分子,许多cDNA分子组成一个cDNA文库。目前GenBank把EST分为三大类:人类、小鼠和其他生物。
RNA层面数据:UniGene(特异基因)
UniGene项目的目的是通过把EST自动分成不冗余的集合从而创造出基因源簇,这样最终只会有一个UniGene簇对应到一个物种中每一基因上。
3、数据整合,如NCBI Genome Assembly
GeneBank
GeneBank数据库是NCBI最主要的序列数据库
特征:核酸序列数据库,收集了大量经过注释的公共DNA序列,每个记录均有对应的访问编号
RedSeq数据库
NCBI衍生数据库,是NCBI和其他组织合作的校正的数据库
特征:依据物种分类整理,无冗余;直接连接核酸序列和蛋白序列;数据经过核对,结构统一,编号清晰
具体如何查找可参考:在NCBI中查找并下载基因序列
GEO数据库
GSM:单个样本的实验数据
GDS:人工整理好的关于某个话题的GSM的集合,一个GDS中的GSM的平台是一样的
GSE:一个实验项目中的多个芯片实验,可能使用多个平台
GPL:芯片的平台,如Affymetrix, Aglent等。
以GSE65496为例,下载它的数据系列文件GSE series matrix,文件里面!号开头的是一些实验描述内容,一般包括标题,样本信息,实验平台,研究者,发布时间等等信息,处理数据前之前需要认真看这些内容。弄清楚样本数量,以及实验组和对照组的样本编号。(转)
具体处理可参考此文
NCBI综合搜索引擎Entrez
用于检索NCBI系统中相互接连的多个数据库
NCBI在线序列比对BLAST