真实数据的价值,统计人都明白。
但这些数据往往并不能直接公开,须经过一番“伪装”才能同大家见面。
部分实现方式:
1、从A——B
建立新旧数据的对应关系
通过匹配的方式批量替换,类似vlookup
参考包:sqldf、merge(效率不高,语法简单,适合小数据集)
2、从12314到1***4
字符串替换
参考包:stringr
yy<-sample(c(10000:99999),100,replace = F)
new<-str_c(str_sub(yy,1,1),'***',str_sub(yy,5,5))
3、汉字转拼音/拼音首字母
在R里调用Rcpp,或者直接使用Python
推荐python包:xpinyin,最方便。