麻省理工公开课人工智能笔记十

最新推荐文章于 2022-01-21 23:16:18 发布

wuwei178

最新推荐文章于 2022-01-21 23:16:18 发布

阅读量693

点赞数 3

分类专栏：课堂笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuwei178/article/details/103943474

版权

课堂笔记同时被 2 个专栏收录

14 篇文章 5 订阅

订阅专栏

14 篇文章 5 订阅

订阅专栏

本篇主要讲识别树的相关知识，以如何辨别吸血鬼为例

首先给出了一组数据

在这个数据集中，有几个明显的特征

①数据全是符号，没有数字

②特征数据并不全部有用

③有些测试可能代价很大

所以我们无法使用最近邻算法去确定一个有特定特征的人是否为吸血鬼。

我们可以建立一个测试树进行测量，就像这样，称其为识别树

好的识别树的标准就是代价最小

分析前面给出的数据，我们可以画出四个测试的测试树

+代表是吸血鬼，-代表不是，中间是测试的不同结果。

理想的测试应当将所有普通人放到一个子集中，所有吸血鬼放到一个子集中，不过显然我们做不到这一点，但是我们可以数数四个测试中同质子集中的个体数目，从左到右依次是4、3、2、0。通过这个测试，我们可以得出结论，最好的测试是影子测试，其次是大蒜测试，再次是面色，最后是口音测试，所以我么首选影子测试

画出其识别树

将影子测试为？的内容重新进行测试

同质子集中数目分别为4、2、0，首选打大蒜测试

于是就可以完全将普通人和吸血鬼分开。

然而对于大数据集，上面的测试就无效了，我们需要更精妙的测试，我们需要衡量这些测试在分支最低端得到的集合的无序度，从而得到一个关于测试的总体质量值，基于对无序度的测量。

数据处理学家通常用下面这条公式

D是指无序度，P指测试数据中为证的数目，N指测试数据中为负的数目

取两个特例

可以得到函数的图像

是哪个类似圆拱形的，这是一种很精妙的模型。

所以测试的总体质量可以用无序度与其权重的积求和来表示

权重用集合中测试数除于总测试数表示。

使用这个方法应用回之前的四个测试中

四个测试的无序度分别是0.5、0.6、0.7、0.95，有一些用的是估计值，仍然可以得出最好的是影子测试。

第二布同样

可以选出大蒜测试

这个方法应用在有数值的测试中，比如上一节课的插座盖例子中

可以得到后面这个测试界限。

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
麻省理工公开课人工智能笔记十

本篇主要讲识别树的相关知识，以如何辨别吸血鬼为例首先给出了一组数据在这个数据集中，有几个明显的特征①数据全是符号，没有数字②特征数据并不全部有用③有些测试可能代价很大所以我们无法使用最近邻算法去确定一个有特定特征的人是否为吸血鬼。我们可以建立一个测试树进行测量，就像这样，称其为识别树好的识别树的标准就是代价最小分析前面给出的数据，我们可以画出四个测试的测...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。