数据划分
Holdout,K-Fold,Bootstrap
- Holdout:按一定比例将数据分为训练集和测试集,缺点是受随机性影响很大。
- K-Fold:K折交叉验证,随机性影响较小
- Bootstrap:可以做到训练集样本量不减少。记样本size为n,进行n次有放回随机采样,得到大小为n的训练集,未被抽出的样本作为验证集。样本未被抽出的概率是: ( n − 1 n ) n (\frac{n-1}{n})^n (nn−1)n,极限是 e − 1 = 0.367879 e^{-1}=0.367879 e−1=0.367879
基础评价指标
准确率: n c o r r e c t n t o t a l \frac{n_{correct}}{n_{total}} ntotalncorrect。缺点也很明显,若测试集负例占99%,即使模型只会把样本预测为负,也会有很高的准确率指标。
Precision:查准率,即模型预测为positive的样本,实际为true的概率。 P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
Recall&