导学课:CV/NLP/RS…RS就是搜推,推荐系统,让计算机分析人的喜好
人工智能>机器学习>深度学习(神经网络类的机器学习算法)
1.1引言
1.什么是机器学习?
计算机通过学习数据,面对新情况时,提供判断。
2.什么是模型?
“算法”是指从数据中学得“模型”的具体方法,例如后续章节中将会讲述的线性回归、对数几率回归、决策树等。“算法”产出的结果称为“模型”,通常是具体的函数或者可抽象地看作为函数,例如一元线性回归算法产出的模型即为形如 f(x) = wx + b的一元一次函数。“模型”泛指从数据中学得的结果。
1.2基本术语
学得模型适用于新样本的能力,称为"泛化" (generalization) 能力.
.通常假设样本空间中全体样本服从 个未知"分布" (distribution) 我们获得的每个样本都是独立地从这个分布上采样获得的,即"独立同分布" (independent and identically distributed ,简称 i.i.d.). 一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。
1.3假设空间
归纳 演绎
狭义归纳:归纳到概念concept,又叫概念学习
假设空间:例如一堆数据,假设空间是一元一次方程的时候,模型是3x-2;假设空间是一元二次方程时,模型是x方
所有模型的集合构成版本空间
1.4归纳偏好
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果.可以想象,如果没有偏好,我们的西瓜学习算法产生的模型每次在进行预测时随机抽选训练集上的等效假设,那么对这个新瓜"(色泽=青绿;根蒂口蜷缩;敲声=沉闷)" ,学得模型时而告诉我们它是好的、时而告诉我们它是不好的,这样的学习结果显然没有意义.
"奥卡姆剃刀" (Occam's razor) 是一种常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个"如果采用这个原则,并且假设我们认为"更平滑"意味着"更简单" (例如曲线更易于描述,其方程式是 = _X2 + 6x + ,而曲线 则要复杂得多) ,则在图1. 中我们会自然地偏好"平滑"的曲线 A.
然而,奥卡姆剃刀并非唯一可行的原则.
视频讲解:
机器学习算法最终学得的模型可以抽象地堪为以样本x为自变量,标记y为因变量的函数y=f(x)。函数想输出离散值,需要阈值,例如,y>0.5,就变成1,<0.5,就变成0