机器学习基础(林軒田)笔记之五
Training versus Testing
一. Recap and Preview
回顾1:当样本数据服从同一个分布并且假设集中的假设函数的个数M有限(上图条件1)的条件下,其学习流程如上图所示。此图与前几章中提供的图的不同之处在于多了一个假设情况,如上图虚线部分所示。假设训练样本和测试样本集服从同一个分布(大部分学习算法都以此为基础)且在假设函数集中假设函数的个数有限的情况下,当训练样本足够大时(上图条件2),假设函数集中的假设函数就会满足PAC准则。此时,在假设函数集中可以找出一个假设函数使得在测试样本中的错误率与在训练样本中的错误率近似,且都近似为0。满足这些条件时(上图中条件1,2,3),机器学习就是可行的。
回顾2(1-4-节课程的内容):
第一节课介绍了机器学的的主要任务是从一个假设函数集合中找出一个假设函数g使得其和目标函数f近似相等(上图1),用第四章的概念解释为,找到一个假设函数g使得在测试样本中的错误率近似为0(上图5);
第二节课指出我们只需要找到假设函数g使得在训练样本中g与f近似即可,换种说法就是使得g在测试样本上的错误率近似为0(上图2);
第三节课介绍了机器学习的不同分类,其中最主要最核心的是用批量数据和监督学习来做二元分类(上图3);
第四章指出,在满足条件假设空间有限,训练样本足够大时训练样本上的错误率与测试样本上的错误率近似相等(上图4)。
第四章指出,在满足条件假设空间有限,训练样本足够大时训练样本上的错误率与测试样本上的错误率近似相等(上图4)。
总结以上内容,我们可以将机器学习分为两个主要的问题:
1. 我们能否确保在训练样本和测试样本上的错误率足够接近;
2. 我们能否是的在训练样本上的错误率足够小。
关于M的取值:
解决问题的思路:
其中mH的值与H有关。
二. Effective Number of Lines
根据第四节课中讲到的,在有限假设集合上求取的保证在训练样本和测试样本上的错误率近似的概率使用的是联合边界(Union Bound),基于此种情况,导致不等式的右侧被放大很多倍,当M为无穷时,此上届可能会被无限放大。但是,真正的概率上边界是不会超过1的,具体解释如下图(集合知识):
下面我们探讨是否可以将近似的假设归为一类,已知假设是无限的,但是数据集是有限的,因此我们基于有限的样本来讨论假设的分类问题。
下面问题基于二分类:
1.一个样本点;
2.两个样本点;
3.三个样本点;
4.四个样本点;
总结:
三. Effective Number of Hypotheses
基于上一节课,我们已经讨论了将假设分为有限的类。
本节课我们讨论在高维度,曲线等情况下怎么对假设进行分类。
下面的讨论也是基于二分类。
成长函数(G肉片Founction)定义:
成长函数(Group Founction)定义:
例一:一维Positive Rays;
例二:一维Positive Intervals;
例三:二维Convex Sets;
四. Break Point
回顾上一节中所讨论的成长函数:
为保证成长函数为多项式形式从而使得霍夫丁不等式的右侧下降的更快,我们提出一个新的概念:断点,即当何时mH开始变为指数形式。
总结