人鼠基因转换之首字母大写
我爱抄作业
- 首字母大小写转换
但是有个问题,并不是所有的同源基因只是简单的首字母大小写配对的。
#改进版本
human_gene <- c("PTPRC", "EPCAM", "MME", "CD3G", "CD3E", "CD68", "CD79A", "RP11-34P13.8") #若干人类基因
upper_low <- function(var) {
var = tolower(var)
first_letter = toupper( substr(var ,1 ,1) )
word = paste0(first_letter ,substring(var ,2 ))
return(word)
}
mouse_gene = sapply(human_gene, upper_low)
2.在R包homologene里有张基因对应表
同时已经有可以转换的代码可用
homologene(genes, inTax, outTax)
genes:需要查找同源基因的基因列表
inTax:输入基因所属物种
outTax:查找的同源基因属于那个物种
3.NCBI homologene 有四万多对同源基因的对应表;简书链接附上
https://www.jianshu.com/p/877d6f3cc799?ivk_sa=1024320u
4.R包 biomart转换
hsa2mus_all <- getLDS(attributes = c("hgnc_symbol"),
filters = "hgnc_symbol",
values = hsaGeneInfo$symbol,
mart = human,
attributesL = c("mgi_symbol"),
martL = mouse,uniqueRows = T)
head(hsa2mus_all)
length(hsaGeneInfo$symbol)
nrow(hsa2mus_all)
5.ensymble实现
https://www.ensembl.info/2009/01/21/how-to-get-all-the-orthologous-genes-between-two-species/