目录
一、监督学习
监督学习(supervised learning),即回归问题(regression)和分类问题(classification),回归是用于预测一些连续的值,分类是针对于离散的值。给算法一个数据集,其中包含了正确的答案,比如:给了一个房价的数据集,对于数据集中的每个样本(每套房子),都表明了正确的售卖价格,该数据集被称为训练集,该算法的目的是从这些数据中学习如何预测房价。
二、无监督学习
无监督学习(unsupervised learning),即聚类算法(clustering algorithm)。这是一种学习机制,给算法大量的数据,要求其找出数据的类型结构,所用到数据集和上述不同,数据没有任何的标签或者都有相同的标签,对于这样的数据集,我们不知道要拿它来干什么,也不知道每个数据点究竟是什么,只是被告知有这样的数据集,无监督学习算法就是对这样的数据集中的数据,得到其中的某种结果。
三、损失函数
记,h(x)为算法预测得到的值,y为真实的标签值,那么我们要做的事就是使的值最小,其中m为训练集的样本容量。为了使数学更加直白一点在前面乘上,这个是为了方便求导,即loss=,为样本方差,也就是loss损失函数。在线性回归中,。我们要做的就是得到a,b使得loss函数的值最小。
即:
hypothesis:
parameters:,
cost function:
goal:使最小
四、梯度下降
用梯度下降算法来最小化
梯段下降算法:,(不断重复这一步,直到收敛,来更新,其中或者)
注:
- 表示赋值语句
- 为学习率,用来控制梯度下降时,迈出多大的步子
- 要同时更新
五、线性回归的梯度下降
这种梯度下降算法,又叫Batch梯度算法,指的是全览整个训练集