【西瓜书机器学习日记——第一天】
1. 绪论
1.1 基本术语
分类和回归:若我们预测值是离散值,则为分类问题;若我们预测值是连续值,则为回归问题。
聚类:训练样本通常不具有标记,在聚类学习后建立。
有监督学习和无监督学习:分类和回归是有监督学习的代表;聚类是无监督学习的代表。
1.2 归纳偏好
概念:对于同一输入空间,可能会得到符合输入空间的多个模型,而这些模型在面临新样本时,可能会产生不同的输出。对于一个具体的学习算法而言,它必须要产生一个模型,这时,学习算法本身的“偏好”就会起到关键的作用。
“奥卡姆剃刀(occam's razor)” :是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”,其中我们认为曲线“更平滑” 意味着“更简单”。当然这一原则并不适用于所有情况。
“没有免费的午餐”定理(No Free Lunch Theorem, NFL):对于一个学习算法a,在某些问题上它比学习算法
b好,那么必然存在另一些问题,在这些问题上
b比
a好。在所有问题出现的几率都相同时、或都同等重要时,无论学习算法
a多么聪明、
b多么笨拙,它们的期望性能都相同!但是我们在研究时往往只关注正要试图解决的具体问题。 NFL定理最重要的启示就是,脱离具体问题而但讨论哪种学习算法更好是没有意义的,学习算法自身的归纳偏好以及和问题的适配度往往会起到决定性的作用。
希望能对你有所帮助,如有错误欢迎指正!