引言
我最近在做TCGA数据分析,在处理中遇到的问题及其收获。主要包括:
case ID 大小写处理
数据的匹配
涉及到的函数有:
小写
- tolower
大写
- toupper
单一的局部匹配
- grep
多个全局匹配
- match
保留固定长度的字符
- substr
大小写处理
在RANseqGene中case ID 为大写的,而Clincial中为小写的。需要对case ID 做转换。
方案一:大写变小写
tolower(colnames(LUAD_RNAseqGene))
方案二:小写变大写
toupper(rownames(LUAD_Clinical))
匹配
grep
在找tumor