生信数据库ID总结及转换方法

一、数据库分类

1、核酸数据库:GenBank,Ensembl等

2、蛋白质数据库:Uniprot,PDB等

3、专用数据库:KEGG,GO,GEO等

二、NCBI Gene检索系统:

1、Gene ID / EntrezGene ID:即平常所说Gene ID,是NCBI Gene检索数据库的编号系统,目前最权威的基因ID命名方法,各大数据库中的基因都会被分配唯一的Gene ID号

2、格式:一串数字,如7157、2131;编号具有物种特异性,人和小鼠的TP53 Gene ID号并不一样;转录本以NM开头,蛋白以NM、NP开头,非编码RNA以NR开头

3、

三、人类基因命名委员会 HGNC 人类基因命名

1、HUGO Gene Symbol / HGNC Symbol / 基因符号:对基因命名描述的一个缩写标识符(如:TP53),这些基因符号是唯一的,同一基因在不同物种中表示不同;值得注意的是,虽然一个基因的gene symbol是唯一的,但存在其他命名,可通过Gene Card   别名Aliases查询
2、Gene Name / 全基因名称:对应Gene Symbol的全基因名,如TP53对应的Gene Name是tumo

### 使用R语言进行息学分析:从GEO数据库获取和处理数据 #### 获取所需包并加载 为了有效地从Gene Expression Omnibus (GEO) 数据库检索和处理数据,可以利用Bioconductor项目中的`GEOquery`软件包。该工具允许用户下载来自GEO的数据集,并将其转换成适合进一步分析的形式。 ```r if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("GEOquery") library(GEOquery) ``` #### 下载特定样本的数据 通过指定GSE编号来访问感兴趣的实验系列记录。下面的例子展示了如何查询ID为"GSE789"的研究: ```r gse <- getGEO('GSE789') str(gse) ``` 这会返回一系列对象,其中可能包含了多个平台上的表达谱矩阵以及相应的元数据。对于某些大型研究,建议使用`getGEOSuppFiles()`函数直接下载补充文件到本地磁盘上再做后续解析。 #### 处理原始CEL文件(如果适用) 当涉及到Affymetrix芯片类型的微阵列时,通常需要先读取`.cel`格式的探针强度值。此时可借助于`affy`包完成标准化预处理操作: ```r library(affy) # 假设已有一个包含路径列表的变量'files' rawData <- ReadAffy(filenames=files) bg.corrected_data <- bgcorrect(rawData, method="rma") # 背景校正 pmmm_corrected_data <- pm(bg.corrected_data) # PM/MM调整 normalized_data <- normalize.exprs(pm corrected_data) # 归一化 exprSet <- expresso(normalized_data, bg.method="none", pm correction.method="pmonly", normalization.method="quantiles") ``` 上述过程实现了背景噪声去除、完美匹配/错配修正及量化归一化的全流程自动化。 #### 进行差异基因表达分析 一旦获得了经过适当预处理后的表达量估计值,则可以通过诸如limma这样的统计测试框架来进行两组间比较找出显著变化的特征。 ```r library(limma) designMatrix <- model.matrix(~0 + factor(c(rep(1, ncol(groupA)), rep(2, ncol(groupB))))) fitModel <- lmFit(exprSet, designMatrix) contrastMatrix <- makeContrasts(GroupBvsGroupA = groupB - groupA, levels=designMatrix) fit2 <- contrasts.fit(fitModel, contrastMatrix) ebayesResults <- eBayes(fit2) topTable(ebayesResults, adjust="fdr", number=Inf)[order(abs(logFC), decreasing=TRUE), ] ``` 此段脚本构建了一个线性模型用于描述不同条件下样品间的平均表达水平差异;接着定义对比关系计算效应大小;最后应用经验贝叶斯方法评估每条mRNA转录物的重要性程度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医道无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值