参考:xccd ,肖凯大牛的博客
########## caret 包总结 ###########
使用caret::mdrr
1、降维
a)删除的变量是常数自变量,或者是方差极小的自变量:
nearZeroVar:诊断预测变量是唯一值(即0方差自变量)
nearZeroVar(x, freqCut = 95/5, uniqueCut = 10, saveMetrics = FALSE)
参数:
x:只能为数值numeric vector,matrix,data frame
freqCut :第一众数 与 第二众数的比率的cutoff(临界值)(比如100个数值,有95个1,5个0;第一众数为95,第二众数为0,比率为95/5)
uniqueCut: 剔重后的唯一值 与 样本总数量的百分比 (上例为 2/100),大于这个值不会被剔除
saveMetrics:如果为T,返回样本每个属性的freqRatio,percentUnique,以及判定结果(zeroVar[0方差只有一个值],nzv[近似0方差(通过前两个参数判定)])
来看看函数写的?
帮助文档detail的例子写的很详细
test <- function(x,freqCut=95/5,uniqueCut=10,saveMetrics=FALSE)
{
if(is.vector(x))
x<-matrix(x,ncol=1)
# 按列处理
freqRatio<-apply(x,2,function(data){
# 频数表
t<-table(data[!is.na(data)])
# 如果matrix按列统计频率,只有唯一值(rep(3,5)) 或 被考察matrix为空,返回值为0 并 跳出函数
if(length(t)<=1){
return(0)
}