监督学习
首先看一个监督学习的例子。假设我们有一组数据,给定A地区的房屋面积和价钱,如下:
No | square_feet | price |
1 | 150 | 6450 |
2 | 200 | 7450 |
3 | 250 | 8450 |
4 | 300 | 9450 |
5 | 350 | 11450 |
6 | 400 | 15450 |
7 | 600 | 18450 |
. | . | . |
. | . | . |
. | . | . |
如何找到一个函数,在给定房屋面积的情况下,预测A地区其它房屋的价钱?
我们用x (i) 代表输入变量(本例中的房屋面积),也叫做输入特征。y (i) 代表我们希望预测的目标变量或者输出变量(房价)。(x (i) ,y (i))叫做一个训练样例。我们将要学习的这组训练集,即m各训练样例组成的列表{(x (i) ,y (i));i=1,…,m},叫做训练集。注意这里上标(i)谨代表训练集的索引,与指数运算没关系。我们还用X代表输入空间,Y代表输出空间。本例中,X=Y=R。
为了更正规的描述监督学习,我们的目的是,给定训练集,学习出一个函数h:X->Y,使得h(x)能够很好的预测相应的y的值。h叫做假设函数。形象地说,如图:
如果我们要估计的目标变量是连续的,如这个房屋的例子,我们称这个学习问题为回归问题。如果y只取有限的离散值(比如,给定房屋面积,判断该房屋属于独栋还是公寓),称之为分类问题。