rank:是一个特征向量,数据特征数,设置的太小拟合度会不够,误差就很大,设置的太大的话会有过拟合的问题,导致模型的泛化能力较差,一般情况下10~1000都是可以的。
iteration:迭代次数,设置的越大越精确,但是也越耗时。
lambda:是一个正则化参数,设置大一点可以防止过拟合,可以从0.0001 ,0.0003,0.001,0.003,0.01,0.03,0.1,0.3这样每次大概3倍的设置,先大概看下哪个值效果比较好,然后在那个比较好的值前后再设置一个范围。如果机器性能够好,而且时间充裕,可以直接设置从0到100,间隔很小,然后一组一组的试。
解决过拟合:增大数据规模、减小数据特征数、增大正则化系数