构建pathID、pathName、entrezID三者对应关系
hsa_kegg <- clusterProfiler::download_KEGG(species = 'hsa')
PATH2ID <- hsa_kegg$KEGGPATHID2EXTID
PATH2NAME <- hsa_kegg$KEGGPATHID2NAME
PATH_ID_NAME <- merge(PATH2ID, PATH2NAME, by="from")
colnames(PATH_ID_NAME) <- c("kegg_ID", "entrez_ID", "pathway")
- hsa_kegg包括两个数据框,分别记录 pathID_to_entrezID 和 pathID_to_pathName 对应信息
- 最终得到的包含pathID、entrezID、pathName三者对应关系的数据框如下:
biomaRt包添加ensembl ID
mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))
entrezgene <- PATH_ID_NAME$entrez_ID
ensembl_id<- biomaRt::getBM(attributes=c("ensembl_gene_id", "entrezgene_id"),
filters = "entrezgene_id",
values=entrezgene , mart= mart)
PATH_ID_NAME <- merge(PATH_ID_NAME, ensembl_id, by.x= "entrez_ID",by.y= "entrezgene_id")
- entrezID 和 ensembleID 是一一对应的关系
- 一个 ensembleID 在不同的 keggPathway 中出现