特殊时期在家闲的过于无聊就把西瓜书的个人笔记分享出来
这一切的一切都要从一只蝙蝠说起。。。。。。
绪论
基本术语
- 数据集 data set: 记录的数据集合,对样本空间的采样
- 样本 sample : 数据集中关于一个事件或对象的每条记录 也称示例 instance
- 特征 feature: 反映事件或对象在某方面的==表现或性质 ==也称属性 attribute
- 属性值 attribute value : 属性的取值
- 样本空间 sample space : 属性张成的空间 也称属性空间 attribute space/输入空间
- 特征向量 feature vector : 单个实例,空间中的每个点对于一个坐标向量
- 样例 example : 拥有了标记信息的样本
- 标记空间 label space : 所有标记的集合 也称输出空间
- 从数据中学得模型的过程称为 学习 learning或 训练 traning -> 通过算法完成
- 训练过程中使用的数据称为 训练数据 training data
- 训练数据中每个样本称为 训练样本 training sample
- 训练样本组成的集合称为 训练集 training set
- 学得模型对应了关于数据的某种潜在规律称为 假设 hypothesis
- 这种潜在的规律自身称为 真相 ground-truth
- 模型也称学习器 learner
- 学得模型后对其进行预测的过程称为 测试 testing
- 被预测的样本称为 测试样本 testing sample
- 学得模型适用于新样本的能力称为 泛化能力 generalization
假设空间
- 归纳 induction -> 从特殊到一般的泛化(generalization)过程
- 演绎 deduction -> 从一般到特殊的特化(specialization)过程
- 版本空间 version space -> 可能有多个假设和训练集一致,存在与训练集一致的假设集合
- 归纳学习:
广义:从样例中学习
狭义:从训练数据中学得概念(concept) 概念学习
归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好
学习算法必须有某种偏好,才能产生他认为正确的模型
if(相似的样本应有相似的输出):
平滑曲线
else:
崎岖曲线
奥卡姆剃刀”(Occam’s razor)原则:
如无必要,勿增实体”(Entities should not be multiplied unnecessarily),即“简单有效原理”。
若有多个假设与原则一致,则选最简单的那个
做选择时,添加必要条件,提出非必要条件,然后去计算概率,每一项选择的结果出现的概率。
“没有免费的午餐”定理(No Free Lunch Theorem, 简称NFL定理)[Wolpert, 1996; Wolpert and Macready, 1995]:
1)对所有可能的的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值相同;
2)对任意固定的训练集,对所有的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;
3)对所有的先验知识求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;
4)对任意固定的训练集,对所有的先验知识求平均,得到的所有学习算法的的“非训练集误差”的期望值也相同。
NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。
即脱离了具体的问题空谈算法好坏毫无意义 -> 学习算法的归纳偏好与问题是否匹配会起决定性作用