一、模型选择 泛化误差:在测试集(未来样本)上的误差经验误差:在训练集上的误差 二、性能评价指标——分类 准确率(Accuracy): 指在分类中,分类正确的记录个数占总记录个数的比; 平均准确率:每个类别下的准确率的算术平均; 精确率:分类正确的正样本个数占分类器所有的正样本个数的比例; 召回率(Recall):也叫查全率,是指在分类中样本的正例有多少被预测正确了。 通常,准确率高时,召回率偏低;召回率高时,准确率偏低。 F1-Score:精确率与召回率的调和平均值(2倍乘积除以和),它的值更接近于精确率和召回率中较小的值。