学习笔记:weka->classify->classify output->summary

学习笔记:weka->classify->classify output->summary

写在开头(重复的)

1.课程来源:B站视频.
2.笔记目的:课程老师推荐个人学习+增强记忆+方便回顾
3.时间:2021年4月26日
4.同类笔记链接:(钩子:会逐渐增加20211001)

5.请一定观看视频课程,笔记是对视频内容的有限度的重现和基于个人的深化理解。
6.注意符号 SS:意味着我的个人理解,非单纯授课内容,有可能有误哦。

—以下正文—

一、summary的简介

  • 1.关注在软件的哪里?是做什么的?在软件中的展现形式是什么样的?等基本问题

(一)在哪里?

  • 1.在weka explorer页面的 classify选项卡 classifier output内部(注意调整滑块位置)
  • 请添加图片描述

(二)做什么用的?

  • 1.经过载入数据集、选择classifier、选择测试集的获得方式、start,在classifier output中展示本次分类器给出的分类模型(J48给的树状,但不是这里介绍的重点)。通过模型在测试集上的工作效果,得到summary,既对模型的基于各种指标的评价
  • 2.必须说明的是,由于我还没有广泛的应用各种classifier,不知道每个classifier的summary是否一样。
  • 3.以下是weka自带的classifier展示
    请添加图片描述

------------下面开始逐项介绍summary里的各项内容-----------------

二、Correctly Classified Instances(正确分类的实例)

  • 1.Correctly Classified Instances 779 (准确个数) 96.1728 %(准确率)
  • 2.这看起来是个不错的分类模型,不是么?(不引起歧义的,我称呼classifier为分类器,有分类器训练出来的,成为分类模型)

三、Incorrectly Classified Instances(不正确分类的实例)

  • 1.Incorrectly Classified Instances 31 (不准确个数) 3.8272 %(不准确率)

四、Kappa statistic(Kappa值)

(一)什么是Kappa值

  • 1.Kappa值用于一致性检验,也可以用于衡量分类精度

  • 2.当Kappa值用于衡量分类精度时的计算方式如下(来自百度百科):
    在这里插入图片描述

    • 2.1 其中,po是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度 。
    • 2.2 假设每一类真实样本个数分别为a1,a2,…,aC,而预测出来的每一类的样本个数分别为b1,b2,…,bC总样本个数为n,则有:
    • 在这里插入图片描述
    • 2.3 kappa计算结果为-1-1,但通常kappa是落在 0-1 间,可分为五组来表示不同级别的一致性:0.0-0.20极低的一致性(slight)、0.21-0.40一般的一致性(fair)、0.41-0.60 中等的一致性(moderate)、0.61-0.80 高度的一致性(substantial)和0.81-1几乎完全一致(almost perfect)。
    • 2.4一个计算例子:
    • 在这里插入图片描述
    • 请添加图片描述
  • 3.当用于一致性检测时的计算方式如下(来自http://sofasofa.io/forum_main_post.php?postid=1000321):

    • 3.1 κappa值是如何计算的?我们直接上栗子。假设我们有两个对象,男生甲和女生乙,相亲。媒婆想知道他们两个能不能处得来,首先就想问能不能吃到一块去。就分别问两个人二十道菜,他们只需回答“喜欢”或者“不喜欢”这道菜。媒婆非常认真,做了下面的表,
      在这里插入图片描述

    • a是男生喜欢、女生也喜欢吃的菜的数量,b是男生喜欢、女生不喜欢的菜的数量,以此类推。

    • Kappa值的计算公式如下

    • 请添加图片描述

    • κ的值在−1到1之间。越接近1,两者越一致、越吻合。换句话说,男生甲和女生乙是有缘人!我们喜欢一样的东西,也讨厌一样的东西。接近0,表面两者之间符合偶然的预期。换句话说,男生甲和女生乙是路人!接近-1,表面两者之间的相符程度非常低。换句话说,男生甲和女生乙是冤家,死对头!我喜欢你讨厌的东西,我讨厌你喜欢的东西。

    • 3.2 具体来算两个例子。

      • 3.2.1例子一请添加图片描述

      • 说明这两人在饮食口味上有点相反,符合程度很低。于是媒婆重新找了女生来相亲。

      • 3.2.2 例子二
        请添加图片描述

      • 这次一算Kappa系数,发现有0.3,虽然不是很高,但是说明口味还是比较接近的。

    • 3.3 例子讲完了,下面说一说应用。之前kappa系数在医学领域应用比较多,比如利用症状的阴性和阳性诊断病情的一致性。现在在机器学习领域,也越来越多得被重视。Kappa系数可以用来评价一个分类器的准确性,特别是在标签不平衡的状态下。比如说:

    • 请添加图片描述

    • 如果采用一般的方法来评价这个分类器的话,我们发现它的精度到达了90%,看起来还不错。可实际并不是这样的。因为这个样本本身就很不平衡,95%的标签是“+”。计算一下,我们可以发现这个分类器的Kappa系数只有-0.05,说明这个预测结果不理想。

(二)kappa值在分类模型的summary中的意义

  • 1.衡量分类的精度。由于J48是有监督的学习,每个预测结果都有观测结果与其对应。因此可以用kappa值衡量预测结果和观测结果的一致性——既衡量分类的精度。
  • 2.如果非要手算的话,用weka提供的混淆矩阵是方便的。真实值=每一行加起来,预测值=每一列加起来。然后按照上面的方法计算。

五、Mean absolute error(平均绝对误差)与Root mean squared error(均方根误差)

  • 1.公式为:

  • 在这里插入图片描述

  • 在这里插入图片描述

  • 另外,标准差的公式为:

  • 在这里插入图片描述

  • 2.可以通过对三者两两对比加强记忆。

  • 2.1 标准差与Root mean squared error(均方根误差):区别在于,标准差衡量的是观测值和观测均值的差距,而RMSE衡量的是每一个预测值和其对应的一个观测值的差距。其次,从上述描述中可以看出来,两者的使用条件是不相同的。标准差只要求观测值,而均方根误差要求预测值和观测值
  • 2.2 Root mean squared error(均方根误差)和Mean absolute error(平均绝对误差):同样的,MAE和RMSE都解决了对正负误差相互抵消问题。但是,MAE显然是线性的——既每一个误差无论大小其在结果中的权重是一样的。而RMSE显然加重了对较大误差的惩罚

六、Relative absolute error

  • 1.多方查找,从“From this presentation, in slide 22, and citing witten, here are the formulas:”找到如下公式,计算预测值和观测值的差的绝对值的和,计算观测值和观测平均值的差的绝对值的和,数一除以数二,得到relative absolute error。
    在这里插入图片描述
    -2. 此值越小实验约准确。

七、Root relative squared error

  • 1.其公式为:但我觉得不对,应该开个根号。
  • 在这里插入图片描述

八、Total Number of Instances(显然的,这是实例总数的意思)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值