麻省理工公开课人工智能笔记十

本篇主要讲识别树的相关知识,以如何辨别吸血鬼为例

首先给出了一组数据

在这个数据集中,有几个明显的特征

①数据全是符号,没有数字

②特征数据并不全部有用

③有些测试可能代价很大

所以我们无法使用最近邻算法去确定一个有特定特征的人是否为吸血鬼。

我们可以建立一个测试树进行测量,就像这样,称其为识别树

好的识别树的标准就是代价最小

分析前面给出的数据,我们可以画出四个测试的测试树

+代表是吸血鬼,-代表不是,中间是测试的不同结果。

理想的测试应当将所有普通人放到一个子集中,所有吸血鬼放到一个子集中,不过显然我们做不到这一点,但是我们可以数数四个测试中同质子集中的个体数目,从左到右依次是4、3、2、0。通过这个测试,我们可以得出结论,最好的测试是影子测试,其次是大蒜测试,再次是面色,最后是口音测试,所以我么首选影子测试

画出其识别树

将影子测试为?的内容重新进行测试

同质子集中数目分别为4、2、0,首选打大蒜测试

于是就可以完全将普通人和吸血鬼分开。

然而对于大数据集,上面的测试就无效了,我们需要更精妙的测试,我们需要衡量这些测试在分支最低端得到的集合的无序度,从而得到一个关于测试的总体质量值,基于对无序度的测量。

数据处理学家通常用下面这条公式

D是指无序度,P指测试数据中为证的数目,N指测试数据中为负的数目

取两个特例

可以得到函数的图像

是哪个类似圆拱形的,这是一种很精妙的模型。

所以测试的总体质量可以用无序度与其权重的积求和来表示


权重用集合中测试数除于总测试数表示。

使用这个方法应用回之前的四个测试中

四个测试的无序度分别是0.5、0.6、0.7、0.95,有一些用的是估计值,仍然可以得出最好的是影子测试。

第二布同样

可以选出大蒜测试

这个方法应用在有数值的测试中,比如上一节课的插座盖例子中

可以得到后面这个测试界限。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值