学习笔记：weka-＞classify-＞classify output-＞summary

走上未曾设想的道路

于 2021-10-01 17:31:45 发布

阅读量694

点赞数

分类专栏： weka 文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_45562510/article/details/120576672

版权

weka 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

学习笔记：weka->classify->classify output->summary

写在开头（重复的）

1.课程来源：B站视频.
2.笔记目的：课程老师推荐个人学习+增强记忆+方便回顾
3.时间：2021年4月26日
4.同类笔记链接：（钩子：会逐渐增加20211001）

5.请一定观看视频课程，笔记是对视频内容的有限度的重现和基于个人的深化理解。
6.注意符号 SS：意味着我的个人理解，非单纯授课内容，有可能有误哦。

—以下正文—

一、summary的简介

1.关注在软件的哪里?是做什么的？在软件中的展现形式是什么样的？等基本问题

（一）在哪里？

1.在weka explorer页面的 classify选项卡 classifier output内部（注意调整滑块位置）

（二）做什么用的？

1.经过载入数据集、选择classifier、选择测试集的获得方式、start，在classifier output中展示本次分类器给出的分类模型（J48给的树状，但不是这里介绍的重点）。通过模型在测试集上的工作效果，得到summary，既对模型的基于各种指标的评价。
2.必须说明的是，由于我还没有广泛的应用各种classifier，不知道每个classifier的summary是否一样。
3.以下是weka自带的classifier展示

------------下面开始逐项介绍summary里的各项内容-----------------

二、Correctly Classified Instances（正确分类的实例）

1.Correctly Classified Instances 779 （准确个数） 96.1728 %（准确率）
2.这看起来是个不错的分类模型，不是么？（不引起歧义的，我称呼classifier为分类器，有分类器训练出来的，成为分类模型）

三、Incorrectly Classified Instances（不正确分类的实例）

1.Incorrectly Classified Instances 31 （不准确个数） 3.8272 %（不准确率）

四、Kappa statistic（Kappa值）

（一）什么是Kappa值

1.Kappa值用于一致性检验，也可以用于衡量分类精度。
2.当Kappa值用于衡量分类精度时的计算方式如下（来自百度百科）：
- 2.1 其中，po是每一类正确分类的样本数量之和除以总样本数，也就是总体分类精度。
- 2.2 假设每一类的真实样本个数分别为a1,a2,…,aC，而预测出来的每一类的样本个数分别为b1,b2,…,bC总样本个数为n，则有：
- 2.3 kappa计算结果为-1-1，但通常kappa是落在 0-1 间，可分为五组来表示不同级别的一致性：0.0-0.20极低的一致性(slight)、0.21-0.40一般的一致性(fair)、0.41-0.60 中等的一致性(moderate)、0.61-0.80 高度的一致性(substantial)和0.81-1几乎完全一致(almost perfect)。
- 2.4一个计算例子：
3.当用于一致性检测时的计算方式如下（来自http://sofasofa.io/forum_main_post.php?postid=1000321）：
- 3.1 κappa值是如何计算的？我们直接上栗子。假设我们有两个对象，男生甲和女生乙，相亲。媒婆想知道他们两个能不能处得来，首先就想问能不能吃到一块去。就分别问两个人二十道菜，他们只需回答“喜欢”或者“不喜欢”这道菜。媒婆非常认真，做了下面的表，
- a是男生喜欢、女生也喜欢吃的菜的数量，b是男生喜欢、女生不喜欢的菜的数量，以此类推。
- Kappa值的计算公式如下
- κ的值在−1到1之间。越接近1，两者越一致、越吻合。换句话说，男生甲和女生乙是有缘人！我们喜欢一样的东西，也讨厌一样的东西。接近0，表面两者之间符合偶然的预期。换句话说，男生甲和女生乙是路人！接近-1，表面两者之间的相符程度非常低。换句话说，男生甲和女生乙是冤家，死对头！我喜欢你讨厌的东西，我讨厌你喜欢的东西。
- 3.2 具体来算两个例子。
  - 3.2.1例子一
  - 说明这两人在饮食口味上有点相反，符合程度很低。于是媒婆重新找了女生来相亲。
  - 3.2.2 例子二
  - 这次一算Kappa系数，发现有0.3，虽然不是很高，但是说明口味还是比较接近的。
- 3.3 例子讲完了，下面说一说应用。之前kappa系数在医学领域应用比较多，比如利用症状的阴性和阳性诊断病情的一致性。现在在机器学习领域，也越来越多得被重视。Kappa系数可以用来评价一个分类器的准确性，特别是在标签不平衡的状态下。比如说：
- 如果采用一般的方法来评价这个分类器的话，我们发现它的精度到达了90%，看起来还不错。可实际并不是这样的。因为这个样本本身就很不平衡，95%的标签是“+”。计算一下，我们可以发现这个分类器的Kappa系数只有-0.05，说明这个预测结果不理想。

（二）kappa值在分类模型的summary中的意义

1.衡量分类的精度。由于J48是有监督的学习，每个预测结果都有观测结果与其对应。因此可以用kappa值衡量预测结果和观测结果的一致性——既衡量分类的精度。
2.如果非要手算的话，用weka提供的混淆矩阵是方便的。真实值=每一行加起来，预测值=每一列加起来。然后按照上面的方法计算。

五、Mean absolute error(平均绝对误差)与Root mean squared error(均方根误差)

1.公式为：
另外，标准差的公式为：
2.可以通过对三者两两对比加强记忆。

2.1 标准差与Root mean squared error(均方根误差):区别在于，标准差衡量的是观测值和观测均值的差距，而RMSE衡量的是每一个预测值和其对应的一个观测值的差距。其次，从上述描述中可以看出来，两者的使用条件是不相同的。标准差只要求观测值，而均方根误差要求预测值和观测值。
2.2 Root mean squared error(均方根误差)和Mean absolute error（平均绝对误差）：同样的，MAE和RMSE都解决了对正负误差相互抵消问题。但是，MAE显然是线性的——既每一个误差无论大小其在结果中的权重是一样的。而RMSE显然加重了对较大误差的惩罚。

六、Relative absolute error

1.多方查找，从“From this presentation, in slide 22, and citing witten, here are the formulas:”找到如下公式，计算预测值和观测值的差的绝对值的和，计算观测值和观测平均值的差的绝对值的和，数一除以数二，得到relative absolute error。

-2. 此值越小实验约准确。