2.1 数据集包含1000个样本,其中500个正例、500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方法。
解:考虑到数据分布的一致性,训练集应包含350个正例和350个反例;
因此,划分方法有 C_500^350∙C_500^350 种。
2.2 数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
解:(1)10折交叉验证法
由于正反例数目相同,错误率为50%
(2)留一法
假定留下的是正例,那么训练集中正例为50,负例为49,判断最后一个为正例的概率为50/99,即错误率为50/99.
2.3 若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
解:BEP是查准率P与查全率R相等时的取值,F1则为P与R的调和平均。
根据1/F1 =1/2∙(1/P+1/R),且F1>F2,显然BEPA>BEPB。
2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
解:真正例率是所有真实正例中真正例的比例;
假正例率是所有真实反例中假正例的比例;
查准率是所有预测正例中真正例的比例;
查全率是所有真实正例中真正例的比例;
所以查全率与真正例率相等 , R=TPR
2.5