【unprofessional use Blog003】基因数据库NCBI相关介绍

NCBI(National Center for Biotechnology Information)

美国国立生物技术信息中心是美国政府为了更好的处理大量出现的生物数据而于1988年建立的机构;由美国国立卫生研究中心(NIH)的美国国家医学图书馆(NLM)开发维护

NCBI的数据库归类

主要数据库

如GeneBank

衍生数据库

1、如NCBI RefSeq mRNA
2、机器处理数据,如UniGene
【扩展】RNA层面数据:表达标签序列(ESTs)
表达序列标签数据库(dbEST)是GenBank数据库的子库,它收录了一系列物种中的单次测序的cDNA序列数据和相关信息。一个EST是一个cDNA克隆的一部分DNA序列。所有cDNA克隆以及由此而来的所有EST数据都来源于特定RNA源,如人脑或大鼠的肝脏。RNA被转换成更稳定的cDNA分子,许多cDNA分子组成一个cDNA文库。目前GenBank把EST分为三大类:人类、小鼠和其他生物。
RNA层面数据:UniGene(特异基因)
UniGene项目的目的是通过把EST自动分成不冗余的集合从而创造出基因源簇,这样最终只会有一个UniGene簇对应到一个物种中每一基因上。
3、数据整合,如NCBI Genome Assembly

GeneBank
GeneBank数据库是NCBI最主要的序列数据库
特征:核酸序列数据库,收集了大量经过注释的公共DNA序列,每个记录均有对应的访问编号
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
RedSeq数据库
NCBI衍生数据库,是NCBI和其他组织合作的校正的数据库
特征:依据物种分类整理,无冗余;直接连接核酸序列和蛋白序列;数据经过核对,结构统一,编号清晰在这里插入图片描述
具体如何查找可参考:在NCBI中查找并下载基因序列

GEO数据库
GSM:单个样本的实验数据
GDS:人工整理好的关于某个话题的GSM的集合,一个GDS中的GSM的平台是一样的
GSE:一个实验项目中的多个芯片实验,可能使用多个平台
GPL:芯片的平台,如Affymetrix, Aglent等。
以GSE65496为例,下载它的数据系列文件GSE series matrix,文件里面!号开头的是一些实验描述内容,一般包括标题,样本信息,实验平台,研究者,发布时间等等信息,处理数据前之前需要认真看这些内容。弄清楚样本数量,以及实验组和对照组的样本编号。(转)
具体处理可参考此文

NCBI综合搜索引擎Entrez

用于检索NCBI系统中相互接连的多个数据库

NCBI在线序列比对BLAST

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值