第一章内容梳理:
重点:理清各个术语,假设空间相关概念,归纳偏好相关概念
之后复习要对照思维导图,口述梳理一遍所有内容。
本章深思几个概念:
-
经验(道理)—— 机器学习
道理是什么?
就是人们从过去经验总结出来的东西。比如太阳东升西落,万有引力等。机器学习是什么?
解读一:就是“利用经验去改善系统自身的性能的一门学科”。
解读二:机器学习的本质就是利用有限的已知数据在复杂的高维特征空间中去预测未知的样本。
“然而,我们并不知道未知样本到底如何,所以再好的算法也有出错的可能” -
NFL定理
若先验分布是平均的,那么所有算法都是一样好。
但实际上没有人会知道特征空间和先验分布的真实样子,所以不会存在一个放之四海而皆准的最好算法。
换句话说,
如果考虑所有潜在问题,那么所有学习算法都是一样好。
所以评判一个算法要考虑具体的实际情况,设计算法更是如此。一个例子:
想象一堆同类盒子中有一个未知盒子,盒子里可能是任何东西。
假设同类盒子里都是篮球,若要“猜测”未知盒子里是什么,那么未知盒子里是不是很可能是篮球?
但若一堆同类盒子里是一株株花,那我说盒子里是蜜蜂是不是也有一定的道理?(关于有没有“道理”,好好品味上面提到的“道理是什么?”和“机器学习是什么?”) -
假设 and 版本空间 (结合上两个概念集思辨版本空间问题)
“现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在一个与训练集一致的‘假设集合’,我们称之为‘版本空间’”(p5)